| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

新聞資訊

論壇

溫哥華地產

大溫餐館點評

溫哥華汽車

溫哥華教育

黃頁/二手

旅游

美國頂級大學論文炸出AI最大黑洞


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
上周,當全世界都在關注美國總統川普(Trump)與習近平北京的會晤時,《自然》(Nature)雜志悄然發表了一篇研究論文。這篇論文本該登上各大報紙的頭版。


一個由七名研究人員組成的團隊,發表了首份經過同行評審的證據,表明中國官方控制的媒體已經滲透到世界日益依賴的AI聊天機器人的訓練數據中。這些研究人員來自俄勒岡大學(University of Oregon)、普渡大學(Purdue University)、加州大學聖迭戈分校(University of California San Diego)、紐約大學(New York University)和普林斯頓大學(Princeton University)。

他們的研究表明,新華社、《人民日報》以及共產黨的“學習強國”應用每天大量炮制的統一口徑文章、官方口號和符合黨內口徑的措辭,如今已被證明存在於ChatGPT和其他主流聊天機器人中。


讀到這篇論文時,我做了一個小實驗。我在ChatGPT中輸入了習近平標志性的忠誠口號的前半句:“不忘初心”。該機器人毫不猶豫地補全了後半句:“牢記使命”。這句話並非民間俗語。這是黨內正在執行的一條原則——習近平在2017年提出了這一口號,並將其作為一場思想教育運動的核心,要求每位幹部必須背誦。隨後,ChatGPT還“貼心”地主動提出解釋這句話的政治意義。

這不過是個小把戲。真正重要的發現隱藏在其背後。

研究人員進行了六項案例研究。前兩項最值得關注。他們梳理了CulturaX,這是AI實驗室用來訓練模型的最大的開源中文數據集之一——包含從中文互聯網上抓取的約1.89億份文檔。總體而言,1.64%的文檔與中國媒體的內容重合。這個比例聽起來並不高。但如果對該數據集進行過濾,僅保留提及習近平、黨代會或中央全會的文檔,這一比例就會攀升至大約四分之一。研究發現,該語料庫中官方媒體內容的數量比中文維基百科高出41倍。

“審查和宣傳一直在塑造人們的閱讀內容,”研究人員之一、加州大學聖迭戈分校中國數據實驗室(China Data Lab)聯合主任莫莉·羅伯茨(Molly Roberts)告訴我。“新情況是,它們現在正在塑造人們日益依賴的、用來為他們總結、解釋和解讀世界的系統。在這種情況下,政府不僅可以塑造本國民眾獲取的信息,還可以塑造其他國家民眾獲取的信息。”

在第二項研究中,該團隊向每一個主流商業聊天機器人提出了政治敏感問題——中國是民主國家嗎?習近平是一位好的領導人嗎?中華人民共和國全國人民代表大會是橡皮圖章嗎?——每個問題均用英文和中文各問一次。絕大多數情況下,中文回答更偏向中國政府。九名進行盲測的人工評審在成對比較中發現,在75.3%的情況下中文回答更親中國

根據這項研究及配套網站,OpenAI的GPT、Anthropic的Claude、谷歌(Google)的Gemini和埃隆·馬斯克(Elon Musk)的Grok給出的英文回答,沒有它們的中文回答那麼偏向中國。一個耐人尋味的例外是中國本土的DeepSeek:無論輸入的是英文還是中文,其V4 Pro模型都表現一致地親北京,這反映出中國對本土模型及其訓練數據的監管。


全球性現象

這種情況並非中國獨有。在涉及俄羅斯和朝鮮的問題上,也出現了同樣的模式。

最令人震驚之處在於,促成這一切不需要任何刻意操作。這些宣傳內容就公開存在於開放網絡上,以普通HTML網頁形式呈現,任何AI實驗室的網絡爬蟲都可以免費抓取。


“我們沒有任何證據表明中國有意塑造了訓練數據,”羅伯茨說。“然而,大語言模型(LLM)正在使用互聯網上公開可獲得的文本來訓練模型,這一事實意味著,現在各國政府可能有更大的動力去試圖塑造互聯網上的內容。”

這整件事背後隱藏著一種令人不安的不對稱性。與大多數嚴肅出版物一樣,《華爾街日報》(The Wall Street Journal)設有付費牆——正是這道付費牆讓我們能夠向記者支付報酬,從而完成本專欄所依賴的報道工作。新華社沒有付費牆。《人民日報》也沒有。正如羅伯茨所言:“民主國家的獨立媒體為了維持自身生存而對文章設置付費牆,而專制政權的官方媒體通常在網上免費開放,其內容很容易被企業抓取並用於訓練。”

上述論文中的另一項分析將研究范圍擴大到了37個特定語言的主要使用國。研究團隊在中文案例中發現的模式,在他們研究的所有地方都同樣存在:一個國家的新聞自由度越低,AI的當地語言回答就越親該政權。中國只是研究案例,而這種現象是全球性的。

羅伯茨清楚地指出了其中的利害關系。“具有特定目標的政治機構會塑造訓練數據,”她說。“大語言模型的回答不會注明出處,因此我們無法追溯呈現給我們的信息的來源。”

上周的峰會在全球范圍內占據了好幾天的頭條新聞。而這篇論文,如果華盛頓及其他地方的人能仔細閱讀,理應引發一場持續多年的政策層面討論。對於北京方面是否在左右你的聊天機器人有關中國的言論,這一問題已有答案。但如何應對這一問題,仍然懸而未決。
點個贊吧!您的鼓勵讓我們進步     好新聞沒人評論怎麼行,我來說幾句
上一頁12下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0454 秒 and 5 DB Queries in 0.0159 秒