News 生活资讯社区专栏原创图片新闻 Recent News 评论搜索教育读书

GPT-5.2性能爆表,但红色警报没有解除

就在刚刚，ChatGPT-5.2发布了。

这是OpenAI成立以来，首次发布红色警报（Code Red）后的第一款产品。

虽然在时间上，GPT-5.2只跟5.1相隔了一个月。但是从公布的性能数据来看，GPT-5.2较上一代提升巨大，而且远超谷歌和Anthropic的同期产品。

然而OpenAI的红色警报并未因此解除，这家公司仍处于危机之中。

究其原因，现在的市场已经逐渐开始对OpenAI祛魅，而是更冷静地审视每一分算力背后的投入产出比。在这种前所未有的环境之下，OpenAI不仅需要证明自己是最强的，还需要证明自己不可被替代。

01

首先要说的，就是GPT-5.2的数学能力。

长期以来，业界普遍认为大语言模型虽然能写代码、能聊天，但在严格的数学推理上总是差强人意。这次GPT-5.2 Thinking在AIME 2025数学竞赛中拿到了100%的满分。

GPT-5.2正式发布!让打工人每周少干10小时

《大生意人》:原着里面十位主要人物的结局,没有一个算得上圆满

殷秀梅:结婚当场就想离自己没有孩子

AIME是美国数学邀请赛，题目难度远超普通高中数学，需要扎实的数学功底和灵活的解题思路。GPT-5.2能在这样的测试中全部答对，说明它在数学推理上已经达到了相当高的水平。

在更高难度的FrontierMath测试中，GPT-5.2 Thinking解决了40.3%的专家级数学难题。这个测试专门针对前沿数学研究设计，许多题目连专业数学家都需要花费大量时间思考。能解决其中40%的问题，已经展现出在辅助科学研究方面的潜力。

除了推理和数学，GPT-5.2在专业工作领域也表现突出。

在OpenAI新推出的GDPval基准测试中，GPT-5.2 Thinking在涵盖44种职业的知识工作任务上，有70.9%的情况下击败或打平了顶尖行业专家。

这些任务包括制作演示文稿、构建复杂的财务模型、撰写专业文档等。OpenAI表示，它完成这些任务的速度是人类专家的11倍以上，成本却不到1%。

在软件工程方面，GPT-5.2 Thinking在SWE-Bench Pro上达到55.6%的准确率，在SWE-bench Verified上达到80%。这些测试评估的是模型在真实代码库中修复bug、实现新功能的能力。

早期测试者反馈，它在前端开发和复杂UI实现上尤其出色，甚至能够根据一条提示就生成包含3D效果和物理模拟的完整应用。

GPT-5.2在长文档理解上也有明显进步。在OpenAI的MRCRv2测试中，它成为首个在256k token长度下，针对4-needle变体任务达到近乎100%准确率的模型。

这意味着用户可以上传数百页的报告、合同或研究论文，模型仍能准确理解分散在不同位置的相关信息，并进行综合分析。