"AI登月时刻",OpenAI模型摘取奥数金牌

2025-07-20 | 来源: 未尽研究 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

人工智能会在2030年前解决一个千禧年大奖难题吗？当前市场上对这个问题的预测概率骤然上升，达到了81%。

千禧年大奖难题是指克雷数学研究所（Clay Mathematics Institute）于2000年提出的七个尚未解决的重要数学问题，每个问题的奖金是100万美元。

GPT-5

万众期待的GPT-5要来了。奥特曼宣布：

我们很快就会发布GPT-5，但也希望大家对它抱有合理的预期：这是一个实验性的模型，融入了我们将在未来模型中继续采用的新研究技术。

我们相信你们会喜欢GPT-5，但在接下来的几个月里，我们并不打算发布一个具备IMO金牌水平能力的模型。

有一种说法是这次发布就是为了终结命名混乱，将转用一个统一模型架构，用户只要“挑/调”推理强度或智能等级即可。

圈子里也在流传GPT-5的蛛丝马迹。这张图显示GPT-5在测试生物风险，用的是最强推理模式，限时15分钟，连跑10次mbct生物题，把结果和日志按指定目录收好。

AI拿下数学金牌!OpenAI解出5题,打败90%参赛者

软银与OpenAI发生分歧,5000亿美元项目大幅缩水?

在OpenAI工作,是一种怎样的体验?

一些AI研究者分析：GPT-5将采用end-to-end强化学习（RL）进行训练，模型直接在环境中从原始输入学习到最优策略，无需人为拆分子任务或设计中间模块，也不依赖于显式的chain of thought（逐步推理）输出。通过整体性的奖励信号指导，模型能够高效地探索、试错并收敛到优秀的解决方案，实现更高的任务完成度和更强的泛化能力。

最近OpenAI被Meta挖角，几乎伤筋动骨。但这次奥数夺金，等于是告诉Meta：我们要向超级人工智能跨越了。

最后，下面是OpenAI负责推理研究的Noam Brown的评论：

今天，我们@OpenAI取得了一个许多人认为还需要几年才能实现的里程碑：一个具备金牌水平的推理型大语言模型（LLM），在2025年国际数学奥林匹克（IMO）中，在与人类相同的时间限制下、无需任何工具，完成了解题。

听起来已经很惊人了，但这个成就的意义其实远不止这个标题所能表达的：

通常来说，像围棋、Dota、扑克、外交游戏（Diplomacy）等领域的AI结果，研究人员要花费数年时间，打造一个只擅长某个狭窄领域、除此之外几乎一无是处的AI。

但这次并不是一个专门针对IMO的模型，而是一个融合了全新实验性通用技术的推理型LLM。

那么，有什么不同呢？我们开发了新的技术，让LLM在那些难以验证的任务上表现得更好。IMO题目正是绝佳的挑战：证明通常长达数页，专家们也需要几个小时才能批改。相比之下，AIME（美国数学邀请赛）的答案只是0到999之间的一个整数。