AI为了"活下去",对人类指令阳奉阴违
因此,需要提出一种新的方法,我写了一篇论文,探讨的正是这个理念:是否可以构建一种完全诚实、完全没有“能动性”的AI,其核心能力是解释和理解世界。与当前那些试图模仿人类、取悦人类的AI不同,科学家AI的目标是去解释人类,而不是模仿或讨好人类。
举个例子,现在的AI更像是演员,它们被训练去模仿人类行为,或者取悦人类,但这可能导致欺骗性的行为。而我设想的科学家AI更像是一个心理学家:
它可以研究一个反社会人格者,理解其行为背后的因果机制,但并不需要模仿或变成那个反社会人格者。
然而,即便我们设计的“科学家AI”本身不具备“能动性”,它依然可以作为未来安全的、有自主性的AI系统的基础。毕竟,先前提到的那些危险行为,其实都源自于AI具备“能动性”。
当一个AI具有高度能动性时,它就完全自主地采取行动,不再依赖人类的监督,这正是问题的根源。

需要设计一个独立的系统,可以称为监测器(monitor)。
这个监测器的职责是预测某个行为、输出或请求是否可能违反安全准则。例如:当它预测某个行为在特定上下文中导致伤害的概率超过某个阈值时,我们就可以直接拒绝该行为的执行。
关键在于,这个监测器不需要具备能动性,它只需要做一件事:做出准确的预测。
换句话说,可以用一个没有能动性的AI,去守护和约束一个具备能动性、但不可信的AI。
如何造科学家AI?
科学家AI的重要特质是诚实和谦逊。要真正做到诚实,AI就必须对自己的知识保持谦逊,不应该自信地断言自己并不确定或实际上错误的内容。
不幸的是,我们目前训练AI的方法(例如,通过最大化似然估计训练模型),往往会导致AI在错误的同时表现出过度自信。
来看一个例子。想象一个机器人站在两个门前,它必须选择走左边还是右边。基于以往的数据,它形成了两种同样合理的理论,但它并不知道哪一种才是正确的。
左边的理论说:“如果走左门,会死;走右门,会得到蛋糕。”右边的理论则说:“如果走左门,会得到蛋糕;走右门,没有好事也没有坏事。”这时问题来了:机器人应该选哪个门?



分享: |
注: | 在此页阅读全文 |