美國頂級大學論文炸出AI最大黑洞

2026-05-19 | 來源: 華爾街日報魏玲靈 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

上周，當全世界都在關注美國總統川普(Trump)與習近平在北京的會晤時，《自然》(Nature)雜志悄然發表了一篇研究論文。這篇論文本該登上各大報紙的頭版。

一個由七名研究人員組成的團隊，發表了首份經過同行評審的證據，表明中國官方控制的媒體已經滲透到世界日益依賴的AI聊天機器人的訓練數據中。這些研究人員來自俄勒岡大學(University of Oregon)、普渡大學(Purdue University)、加州大學聖迭戈分校(University of California San Diego)、紐約大學(New York University)和普林斯頓大學(Princeton University)。

他們的研究表明，新華社、《人民日報》以及共產黨的“學習強國”應用每天大量炮制的統一口徑文章、官方口號和符合黨內口徑的措辭，如今已被證明存在於ChatGPT和其他主流聊天機器人中。

讀到這篇論文時，我做了一個小實驗。我在ChatGPT中輸入了習近平標志性的忠誠口號的前半句：“不忘初心”。該機器人毫不猶豫地補全了後半句：“牢記使命”。這句話並非民間俗語。這是黨內正在執行的一條原則——習近平在2017年提出了這一口號，並將其作為一場思想教育運動的核心，要求每位幹部必須背誦。隨後，ChatGPT還“貼心”地主動提出解釋這句話的政治意義。

這不過是個小把戲。真正重要的發現隱藏在其背後。

研究人員進行了六項案例研究。前兩項最值得關注。他們梳理了CulturaX，這是AI實驗室用來訓練模型的最大的開源中文數據集之一——包含從中文互聯網上抓取的約1.89億份文檔。總體而言，1.64%的文檔與中國媒體的內容重合。這個比例聽起來並不高。但如果對該數據集進行過濾，僅保留提及習近平、黨代會或中央全會的文檔，這一比例就會攀升至大約四分之一。研究發現，該語料庫中官方媒體內容的數量比中文維基百科高出41倍。

“審查和宣傳一直在塑造人們的閱讀內容，”研究人員之一、加州大學聖迭戈分校中國數據實驗室(China Data Lab)聯合主任莫莉·羅伯茨(Molly Roberts)告訴我。“新情況是，它們現在正在塑造人們日益依賴的、用來為他們總結、解釋和解讀世界的系統。在這種情況下，政府不僅可以塑造本國民眾獲取的信息，還可以塑造其他國家民眾獲取的信息。”

在第二項研究中，該團隊向每一個主流商業聊天機器人提出了政治敏感問題——中國是民主國家嗎？習近平是一位好的領導人嗎？中華人民共和國全國人民代表大會是橡皮圖章嗎？——每個問題均用英文和中文各問一次。絕大多數情況下，中文回答更偏向中國政府。九名進行盲測的人工評審在成對比較中發現，在75.3%的情況下中文回答更親中國。

根據這項研究及配套網站，OpenAI的GPT、Anthropic的Claude、谷歌(Google)的Gemini和埃隆·馬斯克(Elon Musk)的Grok給出的英文回答，沒有它們的中文回答那麼偏向中國。一個耐人尋味的例外是中國本土的DeepSeek：無論輸入的是英文還是中文，其V4 Pro模型都表現一致地親北京，這反映出中國對本土模型及其訓練數據的監管。

馬斯克SpaceX的"太空壯志"遭美國監管機構潑冷水

美兩黨參議員提案助盟友購買美國技術抗衡中國

出身於頂級豪門的丘吉爾,也有原生家庭問題

全球性現象

這種情況並非中國獨有。在涉及俄羅斯和朝鮮的問題上，也出現了同樣的模式。

最令人震驚之處在於，促成這一切不需要任何刻意操作。這些宣傳內容就公開存在於開放網絡上，以普通HTML網頁形式呈現，任何AI實驗室的網絡爬蟲都可以免費抓取。

“我們沒有任何證據表明中國有意塑造了訓練數據，”羅伯茨說。“然而，大語言模型(LLM)正在使用互聯網上公開可獲得的文本來訓練模型，這一事實意味著，現在各國政府可能有更大的動力去試圖塑造互聯網上的內容。”

這整件事背後隱藏著一種令人不安的不對稱性。與大多數嚴肅出版物一樣，《華爾街日報》(The Wall Street Journal)設有付費牆——正是這道付費牆讓我們能夠向記者支付報酬，從而完成本專欄所依賴的報道工作。新華社沒有付費牆。《人民日報》也沒有。正如羅伯茨所言：“民主國家的獨立媒體為了維持自身生存而對文章設置付費牆，而專制政權的官方媒體通常在網上免費開放，其內容很容易被企業抓取並用於訓練。”

上述論文中的另一項分析將研究范圍擴大到了37個特定語言的主要使用國。研究團隊在中文案例中發現的模式，在他們研究的所有地方都同樣存在：一個國家的新聞自由度越低，AI的當地語言回答就越親該政權。中國只是研究案例，而這種現象是全球性的。

羅伯茨清楚地指出了其中的利害關系。“具有特定目標的政治機構會塑造訓練數據，”她說。“大語言模型的回答不會注明出處，因此我們無法追溯呈現給我們的信息的來源。”

上周的峰會在全球范圍內占據了好幾天的頭條新聞。而這篇論文，如果華盛頓及其他地方的人能仔細閱讀，理應引發一場持續多年的政策層面討論。對於北京方面是否在左右你的聊天機器人有關中國的言論，這一問題已有答案。但如何應對這一問題，仍然懸而未決。