| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

新闻资讯

论坛

温哥华地产

大温餐馆点评

温哥华汽车

温哥华教育

黄页/二手

旅游

顶级数学家懵然不知 OpenAI 最强模型被曝造假

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
近日,OpenAI 再次陷入了舆论风波。


事件源于 LessWrong 论坛上的一则爆料。一位名为“Meemi”的 Epoch AI 承包商透露,OpenAI 不仅为 FrontierMath 基准测试提供资金支持,还获得了测试题库的特权访问权。(下图)

而这或许也是 o3 的成绩在短时间内获得极大提高的重要原因。但这个信息直到 去年 12 月 20 日 o3 发布时,才由 Epoch AI 对外公布。


消息一出,瞬间在 AI 圈引起轩然大波,因为这很难不让网友怀疑 OpenAI 是既当裁判,也当选手。

吃瓜之前,需要给不熟悉的朋友先捋事件的背景信息。

去年 12 月,OpenAI 正式发布了新一代号称突破 AI 极限的 o3 模型。

在其中一项名为 FrontierMath 的 AI 数学基准测试(成绩单)中,OpenAI 以 25.2% 的准确率遥遥领先,远超 GPT-4 和 Gemini 等模型不足 2% 的成绩。

FrontierMath 是一个分量极重的高级数学推理能力评估基准。它由 Epoch AI 联手 60 多位顶级数学家共同打造,参与者包括多位菲尔兹奖得主和国际数学奥林匹克竞赛的资深命题人。


该基准包含数百个原创且极具挑战性的数学问题,覆盖现代数学的多个主要分支,如数论、实分析、代数几何、范畴论等。




2006 年菲尔兹奖得主、数学天才陶哲轩曾评价 FrontierMath 的问题“极其具有挑战性”,并认为这些问题只能由领域专家来解决。他指出,即使是人类专家,解决这些问题也需要数小时甚至数天的努力。



本表明 o3 在高级数学推理方面有巨大进步的成绩单,却在承包商的爆料后迎来了风评反转。面对争议,Epoch AI 副主任兼联合创始人之一 Tamay Besiroglu 很快在 X 平台承认了此事。

我们犯了一个错误,没有更早披露 OpenAI 在 FrontierMath 中的参与。我们的合同在 o3 发布前禁止我们这么做。事后看来,我们确实应该更努力地争取更早的透明性。我们承认这一点,并承诺未来做得更好。


觉得新闻不错,请点个赞吧     无评论不新闻,发表一下您的意见吧
上一页123下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0480 秒 and 5 DB Queries in 0.0015 秒