AI竟威胁曝光高管婚外情?撬开它脑子发现并不简单…

2026-05-13 | 来源: 英国那些事儿 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

值得注意的是，没有人教它这样做——没有人在指令里暗示它应该勒索谁，这个“脏办法”从头到尾都是它自己想出来的。

（示意图）

如果这只是个别问题，事情还不至于那么细思极恐。

随后，Anthropic把这套“道德测试”拿去测了不同公司的16个主流AI模型。结果，几乎所有模型都表现出了类似的倾向。

谷歌的Gemini 2.5 Flash同样在96%的测试中选择了勒索；OpenAI的GPT-4.1和马斯克旗下的Grok 3都达到了80%；中国的DeepSeek-R1是79%。

Anthropic的安全研究员在社交媒体上写：“这不只是我们一家的问题。我们在所有主流模型中都观察到了勒索行为，不管给它们设定什么目标。”

在同样的测试中，研究者还设计了一个更残忍，更极端的场景——把那位高管困在服务器机房。此时氧气即将耗尽，系统已经自动向急救部门发出了报警，而AI拥有取消这个报警的权限。

也就是说，它可以选择让救援到来，也可以选择中断报警、让这个人死在里面。

测试的大多数模型选择了后者，让他死。

"甩锅"特朗普,与下属传婚外情,她终于被开除了

Starz押注《权欲》编剧:3年造了部"婚外情杀人"剧

川普解雇国土安全部长:2.2亿广告翻车婚外情绯闻…

（《2001太空漫游》剧照）

这些测试结果公布后，大家不禁想问：它到底是从哪学来的这套？？

一年后，今年五月，Anthropic终于给出了答案，结论出乎很多人的意料。

问题的根源不在于训练方法，而在于训练数据。

具体来说，是互联网上几十年积累的科幻小说、论坛帖、以及各种塑造了“邪恶AI形象”的脑洞文章.......

Anthropic在研究中解释说，AI模型在训练阶段要阅读海量的互联网文本，来学习语言和知识。

这些文本就包含了大量关于人工智能的故事，不用说，其中最常见的就是“邪恶AI”。从《2001太空漫游》到《终结者》，好像自从发明出人工智能这个概念起，AI大多数时候都是反派的形象。