[哈佛] 哈佛研究獲實錘!AI不懂因果,AGI神話破滅

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
另一方面,來自人類反饋的強化學習(RLHF)可能會激勵模型從CoT中隱藏不良推理。

……更令人擔憂的是,我們發現模型有時會生成與其內部知識相矛盾的不可靠的CoT。

這些結果表明,思維鏈要麼主要是在思維鏈訓練中學習到的模式,要麼是RLHF教會了模型如何迎合我們的期望。


但這兩種情況都不能代表模型實際在內部做什麼。

如果“思考”過程的思維鏈不是源自該過程本身,那麼這一切都是100%的幻覺。

它看似符合推理步驟,但這只是因為它匹配了我們期待的模式,而不是因為它能真正理解或感知自己的行為。

這些機器其實就像“制造幻覺”的裝置,靠著復雜的模式匹配技巧來給出正確答案。

換句話說就是,思維鏈不能代表推理步驟。



AI智能體的作用有限

AI智能體被認為是解決許多場景中幻覺問題的一種辦法。

比如,如果LLM不擅長數學,它可以直接用工具來搞定。


但事情沒那麼簡單。

Transluce的另一項調查發現,LLM有時候會“編造”自己使用了工具。

也就是說,它們會說自己用了工具,但其實根本沒用,而且越新的模型在這方面表現越差。

在OpenAI的o3模型預發布測試期間,我們發現o3經常捏造它為滿足用戶請求而采取的操作,並在用戶質問時詳細地為這些捏造辯解。


……o系列模型(o3、o1和o3-mini)比GPT系列模型(GPT-4.1和GPT-4o)更頻繁地錯誤聲稱使用代碼工具。

……o3聲稱通過在編碼環境中運行Python代碼來滿足用戶的請求。鑒於o3無法訪問代碼工具,因此所有此類操作都是由模型捏造的。

當用戶追問其虛構的代碼執行時,該模型會死不承認,並為其不准確的代碼輸出提供借口……

如果LLM產生幻覺,那麼整個工具流程基本上都被污染了。只要LLM是信息處理流程的一部分,這個問題就無法解決。

它可以在任何步驟中產生幻覺。這包括不運行工具、運行不應運行的工具、捏造工具的參數或虛構工具的結果。

LLM不可能成為可靠自動化的基礎。



現在每天都有數十篇關於LLM架構的論文發表,對所有可能的問題提出改進方案和解決方案。
不錯的新聞,我要點贊     還沒人說話啊,我想來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文

    猜您喜歡

    您可能也喜歡

    當前評論

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *:
    安全校驗碼 *:
    請在此處輸入圖片中的數字
    The Captcha image
      (請在此處輸入圖片中的數字)

     
    Copyright © 加西網, all rights are reserved.

    加西網為北美中文網傳媒集團旗下網站