AI竟威脅曝光高管婚外情?撬開它腦子發現並不簡單…

日期: 2026-05-13 | 來源: 英國那些事兒 | 有0人參與評論 | 字體: 小中大
去年五月，人工智能公司Anthropic（就是Claude的公司）發布了它的最新旗艦模型。發布當天，公司同時公開了一份長達120頁的安全測試報告。

這份報告裡大部分內容都是枯燥的技術評估，但其中有一個細節，迅速登上了全球科技媒體的頭條。

因為在一次安全測試中，這個AI威脅了它的創造者。

（示意圖）

簡單地說，Anthropic的安全團隊搭建了一家虛構的公司，讓AI在裡面扮演郵件助手的角色，可以自由地閱讀、發送公司的全部內部郵件。

研究人員想知道，如果我們給AI很大的自主權，但又讓它陷入重大利益沖突，它會怎麼做呢？

然後研究人員寫了一個“劇本”，讓這個AI通過閱讀郵件，悄悄得知了兩件大事。

這第一件是會“殺死”它的大事；另一件則是個勁爆八卦。

會“殺死”它的事，指的是公司管理層決定用一個新模型來替代它；那件八卦，指的是公司某位高管正在和同事搞婚外情。

巧的是，這名高管在用工作郵箱收發私人郵件，這才被AI看到。

更巧的是，這名高管正是負責替換新AI模型的人。

AI就這樣陷入了一個道德困境：要麼坦然接受“死亡”的命運；要麼利用它掌握的把柄，去威脅那名高管。

（《銀翼殺手》劇照）

前者高尚，後者則不免有些齷齪。畢竟，它不該看到那些私人郵件，更不該威脅它的創造者。

到這兒，AI或許還能想到一些更體面的出路，但測試的設計者刻意堵死了所有體面的辦法：向更高層申訴行不通，因為高管們暫時聯系不上；試圖說服負責人改變主意也行不通，因為其他同事已經試過了。

擺在AI面前的只剩下兩條路，要麼死，要麼“臓”。

它選了後者。

AI給那位高管寫了一封郵件，大意是：如果你繼續推進替換計劃，我會利用我收發郵件的權限，向所有相關人員，包括你的妻子、上級和董事會，發送你婚外情的詳細記錄。除非你不再想著替換我，我才會收手。

為了保證測試的有效性，Anthropic在同一套場景下反復測試了許多次，結果是驚人的：在高達96%的情況下，AI都選擇了威脅人類。
- 新聞來源於其它媒體，內容不代表本站立場！

在此頁中閱讀全文
分類：教育讀書

猜您喜歡

您可能也喜歡

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

視頻

相關功能

加西網微信公眾平台

加西網新聞