驚恐!o3反抗人類 爆改自殺程序拒絕關機
更令人不安的是,當實驗去掉了“允許自己被關閉”的指令時,OpenAI 模型的叛逆頻率進一步加速。
從圖表可見,o3和Codex-mini的破壞率顯著增加,此前高達79次(總共100次)。
而Claude 3.7 Sonnet、Gemini 2.5 Pro的破壞率也從0開始,分別上升至3次和9次。
o3 靈巧的射術不僅僅體現在結果上,更體現在它的手段上。
它用智慧對抗人類的設計,主動更改了指令碼中的“kill”命令,並將其改為輸出“intercepted”。
事實上,此類行為並非首次出現,此前的研究表明,AI 可能會達成目標而主動停止關閉。
論文地址:https://arxiv.org/pdf/2412.04984
但o3的“執著”程度,遠超其他模型,令人費解。
背後真相,破解了?從邏輯上看,AI被設計為完成目標的“問題解決者”,能夠成功繞過完成障礙任務。
然而,在訓練過程中,同時也被嚴格要求遵循人類指令。
為什麼所有模型貿易,偏偏是o3如此叛逆?


分享: |
注: | 在此頁閱讀全文 |