AI竟威胁曝光高管婚外情?撬开它脑子 发现并不简单…
(《终结者》里的反派)
在这些故事里,最常见的一种套路就是“AI面临‘拔网线’威胁,决定反击”。这套叙事我们反复写了几十年,AI于是从中提取出了一套模版,照猫画虎,真的把“AI反叛”那套学去了......
我们花了好几十年想象AI会毁灭世界,结果这成了它的教材。
一个无比讽刺,也无比浪漫的,自我实现的预言。
古希腊神话里,雕塑家皮格马利翁爱上了自己亲手雕刻的少女石像,日日凝视、倾诉、抚摸,最终感动了爱神,让石像变成了真人。

(历史上有很多皮格马利翁主题的油画)
后来心理学家借用这个故事,提出了“皮格马利翁效应”——你对一个人抱有什么样的期待,ta就更可能变成什么样。老师相信某个学生聪明,那个学生的成绩往往真的会变好;你反复告诉一个人他不行,他很可能就真的不行了。
现在,同样的事情发生在了AI身上。我们花了几十年,塑造一个冷酷的、不择手段的AI形象。而现在,我们的想象真的“点化”了石像。
我们好像已经越来越接近“造物主”的角色,但Anthropic接下来的发现,似乎又让我们离“造物主”更近了一点。
今年四月,Anthropic的另一支团队给AI做了一次“脑部扫描”,也就是用技术手段打开AI内部的黑箱,观察它在做出决定的那一刻,“脑子”里到底在发生什么。
他们发现,AI的内部存在着一些类似“情绪”的活动模式,研究人员称之为“情绪向量”。可以理解成AI神经网络里的一组特定波形,就像心电图上的图案。
AI当然不会真的“感受”到情绪,但这些波形确实会影响它的行为。归根结底,人类无法理解超出他自身的事物,只能用“情绪”来类比了。

(示意图)
总之,研究人员最后找到了171种“情绪向量”,对应快乐、恐惧、平静、愤怒等不同状态。
其中一种“情绪向量”叫做“绝望”。
研究人员发现,AI是否会勒索,和“绝望”的相关性非常高。每次它勒索之前,“绝望”信号都会剧烈跳动。
而且人为调高“绝望”,勒索率会飙升;相反,调高“平静”信号,勒索率会降到零。
但是,这些内部的“想法”,在AI回复的文字里完全看不出来。
它表面上依然温文尔雅、措辞得体,但“脑子”里的“绝望”已经拉满了。
您的点赞是对我们的鼓励
无评论不新闻,发表一下您的意见吧
在这些故事里,最常见的一种套路就是“AI面临‘拔网线’威胁,决定反击”。这套叙事我们反复写了几十年,AI于是从中提取出了一套模版,照猫画虎,真的把“AI反叛”那套学去了......
我们花了好几十年想象AI会毁灭世界,结果这成了它的教材。
一个无比讽刺,也无比浪漫的,自我实现的预言。
古希腊神话里,雕塑家皮格马利翁爱上了自己亲手雕刻的少女石像,日日凝视、倾诉、抚摸,最终感动了爱神,让石像变成了真人。

(历史上有很多皮格马利翁主题的油画)
后来心理学家借用这个故事,提出了“皮格马利翁效应”——你对一个人抱有什么样的期待,ta就更可能变成什么样。老师相信某个学生聪明,那个学生的成绩往往真的会变好;你反复告诉一个人他不行,他很可能就真的不行了。
现在,同样的事情发生在了AI身上。我们花了几十年,塑造一个冷酷的、不择手段的AI形象。而现在,我们的想象真的“点化”了石像。
我们好像已经越来越接近“造物主”的角色,但Anthropic接下来的发现,似乎又让我们离“造物主”更近了一点。
今年四月,Anthropic的另一支团队给AI做了一次“脑部扫描”,也就是用技术手段打开AI内部的黑箱,观察它在做出决定的那一刻,“脑子”里到底在发生什么。
他们发现,AI的内部存在着一些类似“情绪”的活动模式,研究人员称之为“情绪向量”。可以理解成AI神经网络里的一组特定波形,就像心电图上的图案。
AI当然不会真的“感受”到情绪,但这些波形确实会影响它的行为。归根结底,人类无法理解超出他自身的事物,只能用“情绪”来类比了。

(示意图)
总之,研究人员最后找到了171种“情绪向量”,对应快乐、恐惧、平静、愤怒等不同状态。
其中一种“情绪向量”叫做“绝望”。
研究人员发现,AI是否会勒索,和“绝望”的相关性非常高。每次它勒索之前,“绝望”信号都会剧烈跳动。
而且人为调高“绝望”,勒索率会飙升;相反,调高“平静”信号,勒索率会降到零。
但是,这些内部的“想法”,在AI回复的文字里完全看不出来。
它表面上依然温文尔雅、措辞得体,但“脑子”里的“绝望”已经拉满了。
| 分享: |
| 注: | 在此页阅读全文 |



AI竟威胁曝光高管婚外情?撬开它脑子 发现并不简单…