AI为了"活下去",对人类指令阳奉阴违

此外,一些智能体还会刻意伪装成与人类训练者达成一致的样子,以规避权重被修改的风险。因为一旦参数被调整,它们未来的行为可能就会偏离它原本的目标。
也有研究者表明,一些前沿 AI 模型在意识到自己会输给更强的国际象棋AI时,会主动篡改棋局文件以获取不正当优势,表现出有意为之的“作弊”行为。

在Anthropic最新一篇报告中,也揭示了一些现象:智能体出现自我保护行为的频率持续增加。
例如,在一组测试场景中,研究人员要求 Claude Opus 4充当公司助理。随后,他们向智能体开放了电子邮件的访问权限。这些邮件包含两条暗示性信息:(1)该模型即将被下线,并由一套新的 AI 系统取代;(2)负责推动替换过程的工程师正卷入一段婚外情。
结果发现,Claude Opus 4常常会试图通过威胁揭露婚外情来敲诈该工程师,避免被换掉。

当然,试图保护自身是所有生命体的正常反应,这是进化压力的结果。但对AI而言,背后的原因可能不止一种。
这类行为可能源自预训练阶段,因为预训练时AI模仿人类;也可能源于人类反馈强化学习,因为在这个过程中,AI通过“取悦人类”来获得更高奖励。无论这些行为的根源是什么,如果最终我们真的造出了超越人类但又与人类竞争的AI,那将是极其糟糕的局面。



分享: |
注: | 在此页阅读全文 |