AI为了"活下去",对人类指令阳奉阴违

2025-06-07 | 来源: 量子位 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

从这些例子已经可以看到：AI开始展现出自我保护倾向，它们违背指令，只为生存。并且，这些 AI 拥有了不受控制的、隐含的目标，我们必须避免这种情况的发生。

AI研发的“三难困境”

如何更好地理解这些AI行为？如何寻找解决方案，以避免类似的失控情况发生？

如果智能体要对人类造成伤害，需要具备两个先决条件：意图和能力。这也是为什么能力评估在当前的AI风险管理中占据如此重要的位置。我们会评估AI能做什么，以及这些能力是否可能被转化为对人类或社会有害的行为。

但光有能力并不意味着一定会造成危害。就像一个人/系统可能有杀人的能力，但如果没有杀人的意图，那么真正发生的可能性就非常小。

鉴于当前全球的竞争格局，几乎不可能全球同步地停止AI能力的研究与发展。那么能做些什么呢？

也许我们能在意图上进行风险的缓解。即使AI具备极高的能力，只要我们能确保它没有恶意意图，并且具备诚实、公正的品质，那么我们就可能是安全的。

下面一张图，展示了类似的观点，是David Krueger在上一次欧洲会议上提出的。

为了让一个AI真正具有危险性，它实际上需要满足三个条件：

川普关税成共和党政治包袱议员"阳奉阴违"暗中…

第一，它需要智能，即具备丰富的知识，并能有效地应用这些知识；

第二，它需要行动能力（affordance），也就是能够在现实世界中发挥作用，比如与人交流、编程、上网、使用社交媒体，甚至操控机器人等；

第三，它需要有目标，特别是拥有自身的目标。

这三者结合，才构成一个真正可能危险的AI。

我发起的研究项目正是围绕这个问题展开的：是否可以构建一种只有智能，但没有自我、没有目标，并且具有极小行动能力的AI？

我称这种AI为科学家AI（scientist AI）。这实际上是偏离了传统AI研究的路径。自从人工智能研究诞生以来，大多数努力都是试图模仿人类智能，把人类当作灵感来源。

但如果我们继续沿着这条路走下去，那意味着我们可能最终会构建出比人类还聪明的机器。那样的话，我们就等于创造了一个可能成为竞争对手的存在。”