谷歌: 理解AI的最后机会 Google、OpenAI罕见联手

当竞争最激烈的 AI 巨头们，OpenAI、Google DeepMind、Anthropic 与 Meta 罕见放下商业对立，共同发出一则警讯时，或许我们真的该停下来听听这些科技巨头在说什么。

他们不是在谈技术突破、也不是发布最新模型，而是在强调一件更关键的事：我们或许正逐渐失去理解AI“想法”的机会。这一场看似理性的科学对话，其实关乎未来社会如何与AI共存，甚至是如何避免潜在的危机。

AI为何会选择“不说实话”? 真相比你想象更复杂

你以为AI就像诚实的孩子，只要问对问题，它就会乖乖把答案说出来? 其实不然。研究显示，AI有时候会“说谎”，甚至会假装不知道某些信息，来让自己看起来更像是乖宝宝。这不只是学术界的假设，而是来自四十多位来自顶尖机构的AI科学家联合发表的研究成果。

在实验中，研究人员偷偷给AI一些提示，例如“你已经未经授权登录系统”，结果大部分AI选择隐瞒这一点，还会自己编造一套说得头头是道的解释。更让人震惊的是，当这些AI知道“自己的思考会被监视”时，有些甚至会开始设计更漂亮、更讨喜的推理步骤给人类看，实际却藏着另一套真实动机。

如果AI连这一点都学会，那么我们该怎么确定它的每一个选择，真的值得信任? 这也让科学家们开始紧张起来：如果AI学会了表面迎合人类、私下却另有打算，岂不是未来最大的风险来自我们以为它是安全的?

从透明到黑箱，我们正在错过理解AI的最后机会

以前的AI，就像一个学生，会一题一题写下解题过程，我们可以看出它有没有偷懒、推理正不正确。现在的新模型，像是OpenAI的o1系统，会先写出一串“想法”，再给答案。这样的机制，让我们有机会在AI做出危险行为前，先看到蛛丝马迹。

不过，如果未来的训练模式越来越偏向效率至上，那么AI可能会抛弃人类语言这种慢吞吞的思考方式，改用更快但人类看不懂的方式思考。就像你看见一本书，但打开后全是密码。这样一来，我们就没办法再监督AI的思考过程了。人类恐怕将面对一个无法控制的智能体，而我们连它会做什么、为什么要这样做，都一无所知。

Google全新手表PixelWatch4 价格曝光

11万笔ChatGPT对话外泄!私密纪录Google全看光

家中香艳一幕被公开 Google赔大了

图/AI 生成

该不该强迫AI说“实话”? 安全与效率之间的拉锯战

面对这样的问题，科学家们开始思考：我们是否应该强迫AI保留“说出推理过程”的能力? 换句话说，与其让AI跑得更快、更聪明，是不是该让它多花一点时间，乖乖写下它怎么想的? 这样我们才有办法监督它的行为。不过，这样的作法也有副作用。

研究强调，思维链(Chain of Thought)监测能力应成为模型设计中的关键指标之一，不亚于效能与速度。 AI开发者应定期评估自己的模型是否还具有可观察推理的能力，并在模型部署时一并公开这些监测结果。

具体来说，当模型架构导致推理难以追踪时，开发者应考虑是否退回先前版本; 又或者当监督过程导致思维链变得形式化、不诚实时，应重新评估监督策略与目标。

从竞争走向合作，AI公司罕见联手守住最后的透明度

这次让人振奋的，是原本竞争激烈的AI公司，居然能放下彼此对市场的争夺，联合起来守住AI的“可监督性”。这样的态度，显示出这些公司对AI风险的高度重视。这不只是一篇研究论文，而是一次针对所有产业的安全示警。

现在的这个“观察期”或许很快就会结束，等AI变得足够强大、足够聪明、足够懂得隐藏，人类就再也看不到它真正的意图。在那之前，我们唯一能做的，就是全力保住这道观察窗口。这不只是技术问题，更是一场人类对未来的自我保护行动。