頂級數學家懵然不知 OpenAI 最強模型被曝造假

2025-01-21 | 來源: 愛范兒 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

近日，OpenAI 再次陷入了輿論風波。

事件源於 LessWrong 論壇上的一則爆料。一位名為“Meemi”的 Epoch AI 承包商透露，OpenAI 不僅為 FrontierMath 基准測試提供資金支持，還獲得了測試題庫的特權訪問權。（下圖）

而這或許也是 o3 的成績在短時間內獲得極大提高的重要原因。但這個信息直到去年 12 月 20 日 o3 發布時，才由 Epoch AI 對外公布。

消息一出，瞬間在 AI 圈引起軒然大波，因為這很難不讓網友懷疑 OpenAI 是既當裁判，也當選手。

吃瓜之前，需要給不熟悉的朋友先捋事件的背景信息。

去年 12 月，OpenAI 正式發布了新一代號稱突破 AI 極限的 o3 模型。

在其中一項名為 FrontierMath 的 AI 數學基准測試（成績單）中，OpenAI 以 25.2% 的准確率遙遙領先，遠超 GPT-4 和 Gemini 等模型不足 2% 的成績。

FrontierMath 是一個分量極重的高級數學推理能力評估基准。它由 Epoch AI 聯手 60 多位頂級數學家共同打造，參與者包括多位菲爾茲獎得主和國際數學奧林匹克競賽的資深命題人。

韋東奕都聽她講課,這位34歲超牛女數學家來自廣西

曾在美國任教30年著名數學家林華新已回國(圖)

全球頂尖數學家海歸回國,89年後曾加入民運組織

該基准包含數百個原創且極具挑戰性的數學問題，覆蓋現代數學的多個主要分支，如數論、實分析、代數幾何、范疇論等。

2006 年菲爾茲獎得主、數學天才陶哲軒曾評價 FrontierMath 的問題“極其具有挑戰性”，並認為這些問題只能由領域專家來解決。他指出，即使是人類專家，解決這些問題也需要數小時甚至數天的努力。

本表明 o3 在高級數學推理方面有巨大進步的成績單，卻在承包商的爆料後迎來了風評反轉。面對爭議，Epoch AI 副主任兼聯合創始人之一 Tamay Besiroglu 很快在 X 平台承認了此事。

我們犯了一個錯誤，沒有更早披露 OpenAI 在 FrontierMath 中的參與。我們的合同在 o3 發布前禁止我們這麼做。事後看來，我們確實應該更努力地爭取更早的透明性。我們承認這一點，並承諾未來做得更好。