| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

新聞資訊

論壇

溫哥華地產

大溫餐館點評

溫哥華汽車

溫哥華教育

黃頁/二手

旅游

頂級數學家懵然不知 OpenAI 最強模型被曝造假

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
近日,OpenAI 再次陷入了輿論風波。


事件源於 LessWrong 論壇上的一則爆料。一位名為“Meemi”的 Epoch AI 承包商透露,OpenAI 不僅為 FrontierMath 基准測試提供資金支持,還獲得了測試題庫的特權訪問權。(下圖)

而這或許也是 o3 的成績在短時間內獲得極大提高的重要原因。但這個信息直到 去年 12 月 20 日 o3 發布時,才由 Epoch AI 對外公布。


消息一出,瞬間在 AI 圈引起軒然大波,因為這很難不讓網友懷疑 OpenAI 是既當裁判,也當選手。

吃瓜之前,需要給不熟悉的朋友先捋事件的背景信息。

去年 12 月,OpenAI 正式發布了新一代號稱突破 AI 極限的 o3 模型。

在其中一項名為 FrontierMath 的 AI 數學基准測試(成績單)中,OpenAI 以 25.2% 的准確率遙遙領先,遠超 GPT-4 和 Gemini 等模型不足 2% 的成績。

FrontierMath 是一個分量極重的高級數學推理能力評估基准。它由 Epoch AI 聯手 60 多位頂級數學家共同打造,參與者包括多位菲爾茲獎得主和國際數學奧林匹克競賽的資深命題人。


該基准包含數百個原創且極具挑戰性的數學問題,覆蓋現代數學的多個主要分支,如數論、實分析、代數幾何、范疇論等。




2006 年菲爾茲獎得主、數學天才陶哲軒曾評價 FrontierMath 的問題“極其具有挑戰性”,並認為這些問題只能由領域專家來解決。他指出,即使是人類專家,解決這些問題也需要數小時甚至數天的努力。



本表明 o3 在高級數學推理方面有巨大進步的成績單,卻在承包商的爆料後迎來了風評反轉。面對爭議,Epoch AI 副主任兼聯合創始人之一 Tamay Besiroglu 很快在 X 平台承認了此事。

我們犯了一個錯誤,沒有更早披露 OpenAI 在 FrontierMath 中的參與。我們的合同在 o3 發布前禁止我們這麼做。事後看來,我們確實應該更努力地爭取更早的透明性。我們承認這一點,並承諾未來做得更好。


不錯的新聞,我要點贊     無評論不新聞,發表一下您的意見吧
上一頁123下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0319 秒 and 7 DB Queries in 0.0022 秒