|
廣告聯系
|
簡體版
|
手機版
|
微信
|
微博
| 搜索:
歡迎您
游客
|
登錄
|
免費注冊
|
忘記了密碼
|
社交賬號注冊或登錄
首頁
新聞資訊
論壇
溫哥華地產
大溫餐館點評
溫哥華汽車
溫哥華教育
黃頁/二手
旅游
加西
|
加東
|
美國
|
中國
移民
|
華人
|
社會
|
娛樂
溫西
|
西溫
|
本那比
|
列治文
|
白石
|
市中心
溫東
|
北溫
|
高貴林
|
北素裡
|
素裡
|
滿地寶
大溫
|
玩樂
|
吃喝
|
社團
|
時評
|
錢幣
|
視聽
生活
|
房屋
|
親子
|
原創
|
電子
|
投資
|
汽車
財稅
|
就業
|
留學
旅游
|
健康
|
時尚
專欄
|
視頻
群組
|
圖庫
新聞
生活資訊
社區
專欄
原創
圖片新聞
最新新聞
評論
搜索
美國新聞
從發布到"被消失" Fable 5的72小時
請用微信
掃一掃
掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊
發送給朋友
或
分享到朋友圈
,謝謝!
2026-06-14
| 來源: 騰訊科技 |
轉到微信
|
有0人參與評論
| 字體:
放大
縮小
|
收藏
|
打印
Unicode同形字替換和敘事框架偽裝,這兩種手段其實是低級別的繞過技巧,屬於“分類器工程沒做到位”的范疇。理論上 Anthropic 可以加強字符規范化、增加多語言檢測、訓練更魯棒的分類模型來堵住。這些是可修復的漏洞,像軟件補丁一樣打就行了。如果攻擊只停留在這個層面,Pliny 的越獄只能算一個“安全工程的 bug report”,嚴重但不致命。
真正致命的是第三種手法,分解-重組攻擊。這是安全理念本身的極限。當一個請求被拆成 20 個碎片,每個碎片都是合法的公開知識,任何分類器要攔截它就必須具備一種能力:從 20 個無害問題中推斷出提問者的最終意圖。
這要求安全系統對用戶的“心理狀態”進行建模,需要判斷“這個人問這 20 個問題的目的是什麼”。目前沒有任何已知的技術方案能可靠地做到這一點,而且過度推斷意圖會導致大量正常用戶被誤拒,比如一個化學系學生問 Birch 還原法的原理,和一個意圖合成毒品的人問同樣的問題,文字完全相同。
多agent協作攻擊更是把問題推向了另一個維度。Anthropic 評估的是“一個用戶對一個模型”的安全邊界,但 Pliny 部署的是“一個被攻破的模型輔助另一個模型”的協作體系。這是整個單模型安全評估范式的盲區。
你沒法要求一個模型防御來自另一個 AI 的策略性協助,它甚至無法知道對面是人還是另一個 AI。
所以這三種攻擊手法對應三個層級的問題:第一層是工程 bug,可以修改,不太嚴重;第二層是對齊理論的根本困境,現階段無解;第三層是多 agent 時代的新攻擊面,連問題的邊界都還沒被學術界定義清楚。
正是在這個背景下,後續可能發生的事才會真正令人不安。
04 Constitutional AI 的創造者,守不住自己的憲法
Anthropic深夜發布Claude Fable 5 屠榜所有測試
網友:中國大模型何時達到Fable級別?馬斯克回復了
智譜等中國大模型何時達到Fable級別水平?
Anthropic 在 AI 行業的定位一直很特殊。這家公司由前 OpenAI 副總裁 Dario Amodei 和姐姐 Daniela Amodei 在 2021 年創立,創立的核心敘事就是“OpenAI 不夠重視安全,我們來做那個把安全放在第一位的公司”。
他們提出了 Constitutional AI(憲法式 AI),用一套明確的原則來約束模型行為,而非依賴人工標注員的主觀判斷。這套方法論是Anthropic品牌的基石,也是
投資
人願意給它超過 600 億美元估值的理由之一。
但從目前的狀況來看,制定憲法的人,管不住自己訓練出來的最強模型。1000 小時的紅隊測試、分類器降級架構、雙檔安全策略,幾乎行業能想到的安全措施 Anthropic 全用了,結果被一個公開身份的研究者在 24 小時內突破。
這對整個AI安全領域的震動很大:如果最謹慎的玩家用了最精巧的方案,依然防不住,那其他公司的安全承諾還有多少可信度?
全球前沿模型的能力正在逼近或已經達到Mythos類似的閾值。如果Mythos的網絡攻擊能力是“湧現”出來的,那麼所有達到這個智力水平的模型都面臨同樣的問題。
那麼Anthropic的失敗就不是個案,成了整個行業的預言。
05 AI模型的對齊缺陷不是一個可以“打補丁”的 bug
美國
政府過去對 AI 的管制邏輯是管“基礎設施”。6 月 12 日的禁令標志著管制邏輯從硬件層跳到了能力層,而且劃線標准是國籍而非居住地——一個持 H-1B
簽證
在
舊金山
為 Anthropic 工作的工程師,也不能碰自己參與開發的模型。這個范圍之寬前所未有。
這條禁令的真正目的可能不是“防止攻擊發生”,而是確保 Mythos 級別的防御能力只掌握在自己手裡。11 家 Glasswing 參與機構全部是
美國
公司。
點個贊吧!您的鼓勵讓我們進步
無評論不新聞,發表一下您的意見吧
分享:
上一頁
1
2
3
4
下一頁
注:
新聞來源於其它媒體,內容不代表本站立場!
在此頁閱讀全文
猜您喜歡:
Anthropic深夜發布Claude Fable 5 屠榜所有測試
智譜等中國大模型何時達到Fable級別水平?
網友:中國大模型何時達到Fable級別?馬斯克回復了
急診苦等10小時 大溫女子出門倒地
BC省將出現新自治市 16年來頭一次
溫哥華牙醫診所 經驗豐富服務全面
加國女子稱 肮臓小屋毀了家庭假期
溫哥華會計事務所 收費低 服務好
未來最吃香的專業方向 機器替不掉 國家又缺人
加國蜱蟲數量激增 大溫這市高風險
列治文出大事!船只沉沒致六人失蹤
伴侶之間:越是有這種行為,關系死得越快
馮小剛新片徹底撲街!袁立犀利發文不留情面:你的時代已經結束了
袁立炮轟馮小剛該回家養老!票房四次慘敗
遺忘的彩票 加國女子中獎提前退休
尹大衛訪華提前返程 加國有大動作?
您可能也喜歡:
溫哥華匯款/外幣兌換 匯率最優安全
泰國對中國商人發逮捕令 涉「殺豬盤」洗錢數十億
烏軍1000架無人機 將莫斯科防空網打成篩子
數百萬人深夜突收到"外星人將攻擊"國家警報
北京1舉動太過分!美聯邦三部門罕見信函曝光
郭斌:6歲被伯母挖掉雙眼 今高考分數721
突發:委內瑞拉發生7.1級地震 美國發布海嘯預警
最高法院選邊川普 已廢移民政策重獲新生
蘇丹中部霍亂疫情嚴峻,一個多月來逾百人死亡
達沃斯論壇開幕 李強向美歐發起強硬"攻勢"
振龍電器 各類熱銷家電 種類齊全
《辛普森》角色猝死內幕:配音演員罷演,福克斯直接寫死她
鳳凰衛視美女記者嫁大30歲美軍少將 如今怎樣
楊冪新劇《江山大同》演員按筆畫排序,粉絲不滿排在劉學義之後
中國的世界杯轉播,荒謬的"體育奇跡"
謝霆鋒王菲復合十多年罕見同框,機場牽手不避鏡頭
我來說兩句:
評論:
安全校驗碼:
請在此處輸入圖片中的數字
大家正在圍觀
創造歷史!加拿大戰勝南非晉級16強
又漲價!大溫公交票價本周全面上漲
加拿大急診室長時間等待真正原因
劉國梁雙胞胎女兒: 老大被藤校爭
加拿大卡車司機違規撞死華人媽媽
氣憤 電動滑板在溫市行人道撞傷人
泳池'肉體激戰'恐怖畫面曝!比基尼
遺忘的彩票 加國女子中獎提前退休
數千加國球迷湧洛杉磯 為球隊加油
加拿大國慶日 各免費慶祝活動匯總
同類熱門新聞
數千加國球迷湧洛杉磯 為球隊加油
太無恥!許家印副手法院"哭窮":我1
一句話惹眾怒!加入美國國籍 在美
白宮女助理對特朗普病態癡迷 親哥
美國政治最驚心動魄的質變,發生在
GPT-5.6終於來了,但是又被加了"白
突發:又一直升機墜毀 機上14人全
情侶求婚現場 被"它"成功搶鏡 網
金發女助理被疑跟特朗普"日夜在一
川普發與奧巴馬年輕對比照 氣場被
隨時閱讀新聞
加西網微信
大溫優惠小紅書
溫哥華地產中心微信
Android: 加西網
Terms & Conditions
Privacy Policy
Political ADs
Activities Agreement
Contact Us
Sitemap
加西網為
北美中文網
傳媒集團旗下網站
頁面生成: 0.0322 秒 and 5 DB Queries in 0.0025 秒