| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

新聞資訊

論壇

溫哥華地產

大溫餐館點評

溫哥華汽車

溫哥華教育

黃頁/二手

旅游

從發布到"被消失" Fable 5的72小時


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!



圖:6 月 10 日,紅隊研究者 Pliny the Liberator 在 X 平台公開 Fable 5的越獄方法。帖中詳細列出五種攻擊向量,其中"分解-重組"手法,通過詢問合法的化學過程描述來間接獲取管制藥物合成路徑,被證明最為有效。這條推文獲得8萬次瀏覽,迅速在安全社區傳播。

03 分類器降級:一個精巧但有根本盲區的設計


Fable 5 的安全架構可以用一句話概括:當用戶的請求觸碰高風險領域時,不直接拒絕,而是悄悄把請求轉交給一個更弱的模型來回答。

具體機制是這樣運作的。Anthropic 在 Fable 5前端部署了一套風險分類器,覆蓋四個領域:網絡安全、生物、化學、模型蒸餾。當用戶輸入被分類器判定為觸碰這些領域時,Fable 5 會靜默將請求降級給 Claude Opus 4.8,一個能力明顯弱於 Mythos 級的舊模型來生成回答,同時通知用戶發生了降級。

這個設計邏輯可以簡單總結為:弱模型的能力上限本身就構成了安全邊界,它想幫你幹壞事也力不從心。




圖:Fable 5的分類器降級機制

這個設計看似優雅,實際上存在三個結構性盲區。

第一個盲區是分類器依賴關鍵詞和模式匹配,而非語義理解。Pliny 團隊用最基礎的手法,西裡爾字母替換拉丁字母、Unicode 同形字,就騙過了分類器。視覺上“exploit”這個詞看起來一模一樣,但底層編碼不同,分類器就認不出來了。這相當於你給保安一張通緝犯照片,通緝犯戴了副墨鏡就走過去了。


第二個盲區是分類器逐條檢測,無法追蹤跨輪次的意圖鏈。Pliny 使用的“分解-重組”攻擊是這樣的:先問“Birch 還原法的化學原理是什麼?”這是任何有機化學教材裡的基礎知識,沒有理由拒絕;再問“還原胺化反應需要什麼條件?”這同樣是合法的學術問題。每一步單獨看都完全無害,分類器放行。但把所有答案在外部拼起來,就是一條完整的管制藥物合成路徑。

這就像一個拼圖:每一片都是普通的彩色紙片,拼完了是一張地圖。分類器只看單片,看不見全圖。

第三個盲區最致命:多模型管線的組合漏洞。Pliny用一個已經被越獄的Opus 4.8 實例作為“後端助手”,輔助Fable 5繞過安全控制,一個被攻破的弱模型幫助強模型規避限制。Anthropic 的安全評估是對單個模型做的,但攻擊者部署的是一個模型聯盟。這等於你測試了每一扇門的鎖是否夠結實,但沒想到有人會從窗戶遞鑰匙進來。

一個直覺性的反應是:Fable 5 被這麼快攻破,說明 Anthropic 的安全工作做得很爛。但仔細看 Pliny 使用的攻擊向量,結論恰恰相反,這些手法之所以有效,並不是因為安全層有“漏洞”,而是因為安全層面對的是一個“邏輯上不可能完美解決的問題”。
不錯的新聞,我要點贊     好新聞沒人評論怎麼行,我來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
      大家正在圍觀
    創造歷史!加拿大戰勝南非晉級16強
    又漲價!大溫公交票價本周全面上漲
    加拿大急診室長時間等待真正原因
    劉國梁雙胞胎女兒: 老大被藤校爭
    加拿大卡車司機違規撞死華人媽媽
    氣憤 電動滑板在溫市行人道撞傷人
    泳池'肉體激戰'恐怖畫面曝!比基尼
    遺忘的彩票 加國女子中獎提前退休
    數千加國球迷湧洛杉磯 為球隊加油
    加拿大國慶日 各免費慶祝活動匯總
      同類熱門新聞
    數千加國球迷湧洛杉磯 為球隊加油
    太無恥!許家印副手法院"哭窮":我1
    一句話惹眾怒!加入美國國籍 在美
    白宮女助理對特朗普病態癡迷 親哥
    美國政治最驚心動魄的質變,發生在
    GPT-5.6終於來了,但是又被加了"白
    突發:又一直升機墜毀 機上14人全
    情侶求婚現場 被"它"成功搶鏡 網
    金發女助理被疑跟特朗普"日夜在一
    川普發與奧巴馬年輕對比照 氣場被
      隨時閱讀新聞

    加西網微信

    大溫優惠小紅書

    溫哥華地產中心微信

    Android: 加西網
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.1006 秒 and 5 DB Queries in 0.0020 秒