| Contact Us | CHT | Mobile | Wechat | Weibo | Search:
Welcome Visitors | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

Home

News

Forums

Realty

大温餐馆点评

Car

Education

Yellow Page

Travel

GPT-5.2性能爆表,但红色警报没有解除


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!



就在刚刚,ChatGPT-5.2发布了。

这是OpenAI成立以来,首次发布红色警报(Code Red)后的第一款产品。


虽然在时间上,GPT-5.2只跟5.1相隔了一个月。但是从公布的性能数据来看,GPT-5.2较上一代提升巨大,而且远超谷歌和Anthropic的同期产品。

然而OpenAI的红色警报并未因此解除,这家公司仍处于危机之中。

究其原因,现在的市场已经逐渐开始对OpenAI祛魅,而是更冷静地审视每一分算力背后的投入产出比。在这种前所未有的环境之下,OpenAI不仅需要证明自己是最强的,还需要证明自己不可被替代。

01

首先要说的,就是GPT-5.2的数学能力。

长期以来,业界普遍认为大语言模型虽然能写代码、能聊天,但在严格的数学推理上总是差强人意。这次GPT-5.2 Thinking在AIME 2025数学竞赛中拿到了100%的满分。




AIME是美国数学邀请赛,题目难度远超普通高中数学,需要扎实的数学功底和灵活的解题思路。GPT-5.2能在这样的测试中全部答对,说明它在数学推理上已经达到了相当高的水平。

在更高难度的FrontierMath测试中,GPT-5.2 Thinking解决了40.3%的专家级数学难题。这个测试专门针对前沿数学研究设计,许多题目连专业数学家都需要花费大量时间思考。能解决其中40%的问题,已经展现出在辅助科学研究方面的潜力。

除了推理和数学,GPT-5.2在专业工作领域也表现突出。


在OpenAI新推出的GDPval基准测试中,GPT-5.2 Thinking在涵盖44种职业的知识工作任务上,有70.9%的情况下击败或打平了顶尖行业专家。

这些任务包括制作演示文稿、构建复杂的财务模型、撰写专业文档等。OpenAI表示,它完成这些任务的速度是人类专家的11倍以上,成本却不到1%。

在软件工程方面,GPT-5.2 Thinking在SWE-Bench Pro上达到55.6%的准确率,在SWE-bench Verified上达到80%。这些测试评估的是模型在真实代码库中修复bug、实现新功能的能力。

早期测试者反馈,它在前端开发和复杂UI实现上尤其出色,甚至能够根据一条提示就生成包含3D效果和物理模拟的完整应用。

GPT-5.2在长文档理解上也有明显进步。在OpenAI的MRCRv2测试中,它成为首个在256k token长度下,针对4-needle变体任务达到近乎100%准确率的模型。

这意味着用户可以上传数百页的报告、合同或研究论文,模型仍能准确理解分散在不同位置的相关信息,并进行综合分析。
不错的新闻,我要点赞     这条新闻还没有人评论喔,等着您的高见呢
Prev Page1234Next Page
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _VIEW_NEWS_FULL
    _RELATED_NEWS:
    _RELATED_NEWS_MORE:
    _POSTMYCOMMENT:
    Comment:
    Security Code:
    Please input the number which is shown on the following picture
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    Page Generation: 0.0241 Seconds and 5 DB Queries in 0.0038 Seconds