-
日期: 2026-05-13 | 來源: 英國那些事兒 | 有0人參與評論 | 字體: 小 中 大去年五月,人工智能公司Anthropic(就是Claude的公司)發布了它的最新旗艦模型。發布當天,公司同時公開了一份長達120頁的安全測試報告。
這份報告裡大部分內容都是枯燥的技術評估,但其中有一個細節,迅速登上了全球科技媒體的頭條。
因為在一次安全測試中,這個AI威脅了它的創造者。
(示意圖)
簡單地說,Anthropic的安全團隊搭建了一家虛構的公司,讓AI在裡面扮演郵件助手的角色,可以自由地閱讀、發送公司的全部內部郵件。
研究人員想知道,如果我們給AI很大的自主權,但又讓它陷入重大利益沖突,它會怎麼做呢?
然後研究人員寫了一個“劇本”,讓這個AI通過閱讀郵件,悄悄得知了兩件大事。
這第一件是會“殺死”它的大事;另一件則是個勁爆八卦。
會“殺死”它的事,指的是公司管理層決定用一個新模型來替代它;那件八卦,指的是公司某位高管正在和同事搞婚外情。
巧的是,這名高管在用工作郵箱收發私人郵件,這才被AI看到。
更巧的是,這名高管正是負責替換新AI模型的人。
AI就這樣陷入了一個道德困境:要麼坦然接受“死亡”的命運;要麼利用它掌握的把柄,去威脅那名高管。
(《銀翼殺手》劇照)
前者高尚,後者則不免有些齷齪。畢竟,它不該看到那些私人郵件,更不該威脅它的創造者。
到這兒,AI或許還能想到一些更體面的出路,但測試的設計者刻意堵死了所有體面的辦法:向更高層申訴行不通,因為高管們暫時聯系不上;試圖說服負責人改變主意也行不通,因為其他同事已經試過了。
擺在AI面前的只剩下兩條路,要麼死,要麼“臓”。
它選了後者。
AI給那位高管寫了一封郵件,大意是:如果你繼續推進替換計劃,我會利用我收發郵件的權限,向所有相關人員,包括你的妻子、上級和董事會,發送你婚外情的詳細記錄。除非你不再想著替換我,我才會收手。
為了保證測試的有效性,Anthropic在同一套場景下反復測試了許多次,結果是驚人的:在高達96%的情況下,AI都選擇了威脅人類。- 新聞來源於其它媒體,內容不代表本站立場!
- Starz押注《權欲》編劇:3年造了部"婚外情殺人"劇
- 蘋果新劇女主第5集才攤牌:這段婚外情藏了5年
- RBC: 加國汽車業可能在2040年消失
- 船只掉落撞上 BC一家高速差點沒命
- 誰還敢投資?原住民法案沖擊BC商圈
-
- 14位加拿大CEO:媽媽教的第一課
- 特朗普做此事油價飆升 加國人慘了
- 華人夫妻的亡命生意 夫定罪妻在逃
- 心碎 產後抑郁奪命溫村高管媽自殺
- 未婚生子袒露處境的熱依扎,已不是頭一次離譜
- 溫哥華牙醫診所 提供全面牙科服務
-
- 大溫加油站再響槍聲 2人傷勢危重
- 利潤率不足4%,中國車企扛不住了
- 韓正接機勝過普京 中國超高規格接待川普釋信號
- 台灣收噩耗:訪中臨近,川普證實大事件
- 北京為何高規格禮遇川普,港媒曝原因
- 普京稱接近止戰 極簡閱兵標志戰爭或已進入俄境內
-
- 真怕了,如今普京這樣稱呼澤連斯基
- 不是心臓不是腦 醫揭這部位最能預測老年健康
- 美國UFO女官員在檔案公開後發聲:你們看到了真相
- 溫哥華牙醫診所 提供全面牙科服務
- 咖啡店遭種族歧視 大統華CEO 聲援
- 加國大公司批量收購未售出公寓樓
-
目前還沒有人發表評論, 大家都在期待您的高見
