AI为了"活下去",对人类指令阳奉阴违

2025-06-07 | 来源: 量子位 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

人类之间本身就会相互竞争，而如果AI也成为竞争对手，那将可能非常危险。也许现在是时候重新思考这套信条了：我们是否应该继续按照模仿人类的方式来设计AI？或者，我们是否该尝试设计一种对人类有用、对社会有益、但不会对我们构成威胁的AI？

因此，需要提出一种新的方法，我写了一篇论文，探讨的正是这个理念：是否可以构建一种完全诚实、完全没有“能动性”的AI，其核心能力是解释和理解世界。与当前那些试图模仿人类、取悦人类的AI不同，科学家AI的目标是去解释人类，而不是模仿或讨好人类。

举个例子，现在的AI更像是演员，它们被训练去模仿人类行为，或者取悦人类，但这可能导致欺骗性的行为。而我设想的科学家AI更像是一个心理学家：

它可以研究一个反社会人格者，理解其行为背后的因果机制，但并不需要模仿或变成那个反社会人格者。

然而，即便我们设计的“科学家AI”本身不具备“能动性”，它依然可以作为未来安全的、有自主性的AI系统的基础。毕竟，先前提到的那些危险行为，其实都源自于AI具备“能动性”。

当一个AI具有高度能动性时，它就完全自主地采取行动，不再依赖人类的监督，这正是问题的根源。

需要设计一个独立的系统，可以称为监测器（monitor）。

这个监测器的职责是预测某个行为、输出或请求是否可能违反安全准则。例如：当它预测某个行为在特定上下文中导致伤害的概率超过某个阈值时，我们就可以直接拒绝该行为的执行。

川普关税成共和党政治包袱议员"阳奉阴违"暗中…

关键在于，这个监测器不需要具备能动性，它只需要做一件事：做出准确的预测。

换句话说，可以用一个没有能动性的AI，去守护和约束一个具备能动性、但不可信的AI。

如何造科学家AI？

科学家AI的重要特质是诚实和谦逊。要真正做到诚实，AI就必须对自己的知识保持谦逊，不应该自信地断言自己并不确定或实际上错误的内容。

不幸的是，我们目前训练AI的方法（例如，通过最大化似然估计训练模型），往往会导致AI在错误的同时表现出过度自信。

来看一个例子。想象一个机器人站在两个门前，它必须选择走左边还是右边。基于以往的数据，它形成了两种同样合理的理论，但它并不知道哪一种才是正确的。

左边的理论说：“如果走左门，会死；走右门，会得到蛋糕。”右边的理论则说：“如果走左门，会得到蛋糕；走右门，没有好事也没有坏事。”这时问题来了：机器人应该选哪个门？