哈佛研究獲實錘!AI不懂因果,AGI神話破滅

[哈佛] 哈佛研究獲實錘!AI不懂因果,AGI神話破滅

2025-04-28 | 來源: 新智元 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

盡管LLM看似能夠進行流暢推理和問題解答，但它們背後的思維鏈其實只是復雜的統計模式匹配，而非真正的推理能力。AI模型僅僅通過海量數據和經驗法則來生成響應，而不是通過深刻的世界模型和邏輯推理來做決策。

我們離人類智能水平的AI還遠嗎？

如果你問OpenAI、Anthropic、Google等頂尖AI公司的CEO，他們肯定是信心滿滿，認為就在眼前。

但現實是，越來越多的人認為，AI的思維方式跟人類完全不同。

研究者們發現，如今的AI模型在底層架構上就存在根本性的局限。

AI本質上是通過學習海量的經驗規則，然後把這些規則套用到它們所接觸到的信息上，進而模擬智能。

這與人類，甚至動物對世界的理解方式大不相同。

生物體會構建一個關於世界是如何運轉的“世界模型”，這裡面會包含因果關系，能讓我們預測未來。

很多AI工程師會宣稱，他們的模型也在其龐大的人工神經網絡中構建出了類似的“世界模型”。

證據是這些模型能夠寫出流暢的文章，並能表現出明顯的推理能力。

尤其是最近推理模型取得的進展，更加讓人相信我們已經走在了通向AGI的正確道路上。

然而，近期的一些研究讓我們可以從內部窺探一些模型的運行機制，結果讓人懷疑我們是否真的在接近AGI。

“關於這些模型到底在幹什麼，以及人們用來描述它們的那些擬人化說法（比如『學習』、『理解』之類的），現在爭議挺大的。”Santa Fe研究所研究AI的教授Melanie Mitchell說。

Melanie Mitchell，Santa Fe研究所教授

一堆經驗法則

Mitchell認為，越來越多的研究表明，這些模型似乎發展出了海量的“經驗法則”，而不是構建更高效的心理模型來理解情境，然後通過推理完成任務。

哈佛大學的AI研究員Keyon Vafa首次聽到“一堆經驗法則”這個提法時表示“感覺一下子點醒了我——這就是我們一直想描述的東西。”

Vafa的研究試圖搞清楚：當AI被輸入數百萬條類似谷歌地圖的逐步導航指令後，會構建出怎樣的認知地圖。他和團隊以曼哈頓錯綜復雜的街道網絡作為測試樣本。

結果呢，AI畫的看起來根本不像曼哈頓的街道地圖。

仔細檢查發現，AI竟然推演出各種離譜路線——比如橫穿中央公園的直線，或者斜著連跨好幾個街區。

但詭異的是，這個模型給出的分步導航指令在99%的情況下居然能用。

AI在接受了數百萬條逐向導航指令的訓練後，在它自己的“腦子”裡勾勒出了一張曼哈頓地圖，來自論文“Evaluating the World Model Implicit in a Generative Model”

Vafa解釋說，雖然這張亂七八糟的地圖能讓司機崩潰，但AI本質上是從所有可能的起點出發，為各種路況學了一大堆獨立的導航規則。

AI龐大的“腦容量”加上超強算力，讓它能用人類根本想不到的野路子解決問題。

真會思考，還是死記硬背？

有些研究表明，模型會為不同數字范圍（比如200到210）專門學一套乘法規則。你覺得這種方法做數學不太靠譜？沒錯，你想對了。

現在的AI本質上是一堆復雜、拼湊的“奇葩機器”，充滿了各種臨時湊合的解決方案來應對我們的指令。

Vafa說，理解這一點能很好地解釋為什麼AI在面對稍稍超出其訓練范圍的任務時就會掉鏈子。

比如，當團隊僅封鎖虛擬曼哈頓1%的道路時，AI的繞行表現就直線暴跌。

Vafa表示，這體現了當今AI與人類的巨大差異。

一個人可能無法記住99%的導航路線，但他有足夠的靈活性，來輕松繞過一點道路施工路段。

這也解釋了為什麼模型需要那麼大：它們得記住一大堆經驗法則，沒法像人類一樣把知識壓縮成一個心理模型。

人類可能試幾次就理解了，但AI需要學習海量的數據。

為了推導出那些零散的規則，AI得看到所有可能的單詞、圖像、棋盤位置等組合。而且為了訓練得更好，它們得反復看這些組合無數次。

或許這也能解釋：為什麼不同公司的AI“思考”方式如出一轍，連性能表現都趨於接近——而這種性能，可能已經觸頂了。

截至每年第二季度的各家模型最高智力分數

AGI未取得任何進展

今年3月，Anthropic 發布了一篇新論文“On the Biology of a Large Language Model”，以前所未有的方式揭示了這些AI模型內部的“想法”。

由此，我們不再需要通過分析外部行為來猜測，而是可以窺視LLM黑盒中發生的推理過程，並檢查LLM在多大程度上可解釋。

結果表明，這些模型根本沒有像許多人認為的那樣進行推理。

內部發生的事情看起來不像人類進行推理時所采取的步驟，而且，當模型告訴我們它們如何推理時，這完全是捏造的。這與我們觀察到的它們內部正在做的事情並不相符。

所有LLM在AGI方面取得的所謂“進展”，實際上都歸功於構建了規模極其龐大的統計模型，這些模型制造出了一種智能的假象。

每一次性能的提升並沒有讓它們變得更聰明；它只是讓它們在輸入機器的數據范圍內，成為了更好的啟發式預測器。

智能和大型統計模型之間的能力差異通常難以察覺，但它仍然是一個重要的本質區別，因為它將顯著改變可實現的應用場景。

我們知道LLM的基礎是統計模型，那麼智能本身是否只是統計模式分析？

確實如此，智能包含了從統計模式匹配中獲得的能力，兩者看似有重疊，但反過來卻不成立。

統計模型沒法完全復制智能的所有功能。即使在看似重疊的領域，統計模型的效率也低得離譜，還不靠譜。

統計模型就像信息的靜態快照，基於現實的規則生成，但它不是現象本身，所以沒法從基本原理創造新信息。

所謂模型的“湧現行為”，其實就是各種模式的組合。模型越大，找到的模式越多，組合出的模式也越多。歸根結底，一切都是模式。

Anthropic等機構的研究進一步表明，LLM確實能通過統計分析得出正確答案，但它的推理方式跟智能推理完全不同。

這種本質上的差異，對LLM最終能實現的目標影響巨大。

如何檢查LLM的“想法”？

Anthropic使用歸因圖譜工具檢查了LLM用於執行簡單數學加法的過程。

結果表明，這是一個復雜的啟發式網絡，而不是一個已定義和理解的加法算法。

LLM用來解決以下問題的過程：36+59 = 95

我們現在重現算式36+59=的歸因圖。“接近57的數相加”這一低精度特征，被用於查詢“接近36的數與接近60的數相加”的查找表特征，而這個查找表特征又影響著“和接近92”這一特征。這種低精度路徑，補充了右側的高精度模塊化特征（“左操作數以9結尾” 影響 “加上一個以9結尾的數”，後者又影響 “以6結尾的數加上以9結尾的數”，最終影響 “和以5結尾”）。這些特征組合在一起，最終給出了正確的和95。

這個過程代表了一系列啟發式方法和記憶模式的查找表。因此，當要求LLM描述它用來解決計算的方法時，它會這樣回答：

我將個位數相加 (6+9=15)，進位1，然後將十位數相加 (3+5+1=9)，結果為95。

哈佛:每周超過3.5杯牛奶肝癌風險提升45%

我在美國私校當老師,帶出4個哈佛娃

特朗普稱要取消哈佛大學免稅資格:這是他們應得的

但是，我們可以看到LLM根本沒有做任何類似的事情。LLM提供的答案與內部過程不匹配。

它只是提供了與我們在訓練數據中找到的答案模式相匹配的文本。

AI對推理的解釋純屬虛構

Anthropic的Claude 3.7系統卡也得出結論，模型產生的思維鏈在描述構建輸出的過程時並不可靠。

這些結果表明，模型利用了提示，但沒有在思維鏈中明確說明，這表明CoT可能無法可靠地揭示模型的真實推理過程。

另一篇論文“Reasoning Models Don’t Always Say What They Think”進一步研究了思維鏈，並且還確定推理步驟並不代表模型的內部過程。

……模型可以從人類文本的預訓練或監督微調中學習表達他們的推理，這些人類文本闡明了人類的思維鏈。

另一方面，來自人類反饋的強化學習（RLHF）可能會激勵模型從CoT中隱藏不良推理。

……更令人擔憂的是，我們發現模型有時會生成與其內部知識相矛盾的不可靠的CoT。

這些結果表明，思維鏈要麼主要是在思維鏈訓練中學習到的模式，要麼是RLHF教會了模型如何迎合我們的期望。

但這兩種情況都不能代表模型實際在內部做什麼。

如果“思考”過程的思維鏈不是源自該過程本身，那麼這一切都是100%的幻覺。

它看似符合推理步驟，但這只是因為它匹配了我們期待的模式，而不是因為它能真正理解或感知自己的行為。

這些機器其實就像“制造幻覺”的裝置，靠著復雜的模式匹配技巧來給出正確答案。

換句話說就是，思維鏈不能代表推理步驟。

AI智能體的作用有限

AI智能體被認為是解決許多場景中幻覺問題的一種辦法。

比如，如果LLM不擅長數學，它可以直接用工具來搞定。

但事情沒那麼簡單。

Transluce的另一項調查發現，LLM有時候會“編造”自己使用了工具。

也就是說，它們會說自己用了工具，但其實根本沒用，而且越新的模型在這方面表現越差。

在OpenAI的o3模型預發布測試期間，我們發現o3經常捏造它為滿足用戶請求而采取的操作，並在用戶質問時詳細地為這些捏造辯解。

……o系列模型（o3、o1和o3-mini）比GPT系列模型（GPT-4.1和GPT-4o）更頻繁地錯誤聲稱使用代碼工具。

……o3聲稱通過在編碼環境中運行Python代碼來滿足用戶的請求。鑒於o3無法訪問代碼工具，因此所有此類操作都是由模型捏造的。

當用戶追問其虛構的代碼執行時，該模型會死不承認，並為其不准確的代碼輸出提供借口……

如果LLM產生幻覺，那麼整個工具流程基本上都被污染了。只要LLM是信息處理流程的一部分，這個問題就無法解決。

它可以在任何步驟中產生幻覺。這包括不運行工具、運行不應運行的工具、捏造工具的參數或虛構工具的結果。

LLM不可能成為可靠自動化的基礎。

現在每天都有數十篇關於LLM架構的論文發表，對所有可能的問題提出改進方案和解決方案。

似乎每個問題都已經有了解決方案，而所有這些研究成果被整合到模型中只是時間問題。

然而，這些架構的每一個“調整”都是孤立地進行研究的。

可以將這些大型統計模型想象成一個擁有大量全局變量的龐大代碼庫。

從本質上講，對模型的許多這些“改進”可能會在某種程度上互不兼容，因為它們會引入副作用，從而削弱模型在其他領域的表現。

AGI遙遙無期，LLM不過是“一根筋”

這些模型只不過是統計模型。

它們無法判斷什麼是對，什麼是錯。只能通過啟發式方法來判斷什麼可能是對的，什麼可能是錯的。因此，無法通過推理來構建世界的客觀規律。

在追求類人推理機器的道路上，我們已經多次犯錯。我們現在錯了，而且可能還會再錯。

人類的推理遠比統計模型復雜得多。

我們每次都錯了！

——Yann Lecun

Loaded: 69.64%Picture-in-PicturePauseCurrent Time 0:08/Duration 0:48FullscreenMute自動播放

這就是為什麼AI需要海量的例子才能提高其在任何任務上的能力。

AI的任何成就都只是基於歷史數據的總結。沒有推理能力，就必須不斷地進行訓練才能保持相關性。

有些人會說：“但是看看所有這些強大的能力，難道它不是在推動我們更接近AGI嗎？”

不，它正在通過不同的方式實現目標。

這種區別很重要，因為徒有智能表象，而缺乏真正理解的系統，總是會遭受不可預測的失敗，這使得它們不適合用於可信賴的系統。

毫無疑問，大規模擴展統計模型所能做的事情令人印象深刻，它們也有其用途。

高級的模式匹配本質上有點像算法，但它還是靠統計數據堆出來的算法，只能處理訓練數據裡的關聯，永遠沒法在專門的訓練集和測試基准之外表現得特別優秀。

這意味著LLM將繼續改進基准測量和其他抽樣測試，與此同時，“AGI已經到來”的說法會越來越多。

但問題是，這些測試根本反映不了AI在現實中的真實水平。

當LLM實際上並不像我們以為的那樣“理解”世界時，現實環境對它來說，到處都是坑——稍不留神，它就會犯錯。

我們可以繼續擴大它們的規模，而且我們也會這樣做，但這非常低效。

與此同時，人腦以12 ~ 20瓦的功率運行，但在產生新穎的語義數據方面，仍然沒有AI可以與之競爭。

所有當前的架構都只是蠻力模式匹配。

如果我們走在通往智能的道路上，那麼訓練數據量和功率需求都應該減少，而不是增加。