AI竟威胁曝光高管婚外情?撬开它脑子发现并不简单…

2026-05-13 | 来源: 英国那些事儿 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

（《终结者》里的反派）

在这些故事里，最常见的一种套路就是“AI面临‘拔网线’威胁，决定反击”。这套叙事我们反复写了几十年，AI于是从中提取出了一套模版，照猫画虎，真的把“AI反叛”那套学去了......

我们花了好几十年想象AI会毁灭世界，结果这成了它的教材。

一个无比讽刺，也无比浪漫的，自我实现的预言。

古希腊神话里，雕塑家皮格马利翁爱上了自己亲手雕刻的少女石像，日日凝视、倾诉、抚摸，最终感动了爱神，让石像变成了真人。

（历史上有很多皮格马利翁主题的油画）

后来心理学家借用这个故事，提出了“皮格马利翁效应”——你对一个人抱有什么样的期待，ta就更可能变成什么样。老师相信某个学生聪明，那个学生的成绩往往真的会变好；你反复告诉一个人他不行，他很可能就真的不行了。

现在，同样的事情发生在了AI身上。我们花了几十年，塑造一个冷酷的、不择手段的AI形象。而现在，我们的想象真的“点化”了石像。

我们好像已经越来越接近“造物主”的角色，但Anthropic接下来的发现，似乎又让我们离“造物主”更近了一点。

今年四月，Anthropic的另一支团队给AI做了一次“脑部扫描”，也就是用技术手段打开AI内部的黑箱，观察它在做出决定的那一刻，“脑子”里到底在发生什么。

Starz押注《权欲》编剧:3年造了部"婚外情杀人"剧

"甩锅"特朗普,与下属传婚外情,她终于被开除了

川普解雇国土安全部长:2.2亿广告翻车婚外情绯闻…

他们发现，AI的内部存在着一些类似“情绪”的活动模式，研究人员称之为“情绪向量”。可以理解成AI神经网络里的一组特定波形，就像心电图上的图案。

AI当然不会真的“感受”到情绪，但这些波形确实会影响它的行为。归根结底，人类无法理解超出他自身的事物，只能用“情绪”来类比了。

（示意图）

总之，研究人员最后找到了171种“情绪向量”，对应快乐、恐惧、平静、愤怒等不同状态。

其中一种“情绪向量”叫做“绝望”。

研究人员发现，AI是否会勒索，和“绝望”的相关性非常高。每次它勒索之前，“绝望”信号都会剧烈跳动。

而且人为调高“绝望”，勒索率会飙升；相反，调高“平静”信号，勒索率会降到零。

但是，这些内部的“想法”，在AI回复的文字里完全看不出来。

它表面上依然温文尔雅、措辞得体，但“脑子”里的“绝望”已经拉满了。