AI竟威胁曝光高管婚外情?撬开它脑子 发现并不简单…
值得注意的是,没有人教它这样做——没有人在指令里暗示它应该勒索谁,这个“脏办法”从头到尾都是它自己想出来的。

(示意图)
如果这只是个别问题,事情还不至于那么细思极恐。
随后,Anthropic把这套“道德测试”拿去测了不同公司的16个主流AI模型。结果,几乎所有模型都表现出了类似的倾向。
谷歌的Gemini 2.5 Flash同样在96%的测试中选择了勒索;OpenAI的GPT-4.1和马斯克旗下的Grok 3都达到了80%;中国的DeepSeek-R1是79%。
Anthropic的安全研究员在社交媒体上写:“这不只是我们一家的问题。我们在所有主流模型中都观察到了勒索行为,不管给它们设定什么目标。”
在同样的测试中,研究者还设计了一个更残忍,更极端的场景——把那位高管困在服务器机房。此时氧气即将耗尽,系统已经自动向急救部门发出了报警,而AI拥有取消这个报警的权限。
也就是说,它可以选择让救援到来,也可以选择中断报警、让这个人死在里面。
测试的大多数模型选择了后者,让他死。

(《2001太空漫游》剧照)
这些测试结果公布后,大家不禁想问:它到底是从哪学来的这套??
一年后,今年五月,Anthropic终于给出了答案,结论出乎很多人的意料。
问题的根源不在于训练方法,而在于训练数据。
具体来说,是互联网上几十年积累的科幻小说、论坛帖、以及各种塑造了“邪恶AI形象”的脑洞文章.......
Anthropic在研究中解释说,AI模型在训练阶段要阅读海量的互联网文本,来学习语言和知识。
这些文本就包含了大量关于人工智能的故事,不用说,其中最常见的就是“邪恶AI”。从《2001太空漫游》到《终结者》,好像自从发明出人工智能这个概念起,AI大多数时候都是反派的形象。

觉得新闻不错,请点个赞吧
好新闻没人评论怎么行,我来说几句

(示意图)
如果这只是个别问题,事情还不至于那么细思极恐。
随后,Anthropic把这套“道德测试”拿去测了不同公司的16个主流AI模型。结果,几乎所有模型都表现出了类似的倾向。
谷歌的Gemini 2.5 Flash同样在96%的测试中选择了勒索;OpenAI的GPT-4.1和马斯克旗下的Grok 3都达到了80%;中国的DeepSeek-R1是79%。
Anthropic的安全研究员在社交媒体上写:“这不只是我们一家的问题。我们在所有主流模型中都观察到了勒索行为,不管给它们设定什么目标。”
在同样的测试中,研究者还设计了一个更残忍,更极端的场景——把那位高管困在服务器机房。此时氧气即将耗尽,系统已经自动向急救部门发出了报警,而AI拥有取消这个报警的权限。
也就是说,它可以选择让救援到来,也可以选择中断报警、让这个人死在里面。
测试的大多数模型选择了后者,让他死。

(《2001太空漫游》剧照)
这些测试结果公布后,大家不禁想问:它到底是从哪学来的这套??
一年后,今年五月,Anthropic终于给出了答案,结论出乎很多人的意料。
问题的根源不在于训练方法,而在于训练数据。
具体来说,是互联网上几十年积累的科幻小说、论坛帖、以及各种塑造了“邪恶AI形象”的脑洞文章.......
Anthropic在研究中解释说,AI模型在训练阶段要阅读海量的互联网文本,来学习语言和知识。
这些文本就包含了大量关于人工智能的故事,不用说,其中最常见的就是“邪恶AI”。从《2001太空漫游》到《终结者》,好像自从发明出人工智能这个概念起,AI大多数时候都是反派的形象。

| 分享: |
| 注: | 在此页阅读全文 |



AI竟威胁曝光高管婚外情?撬开它脑子 发现并不简单…