OpenAI最强推理模型o4-mini来了这次什么新功能?

北京时间4月17日凌晨，OpenAI 发布了两款突破性AI模型——o3和o4-mini，它们能通过图像进行推理，并可自主调用多种工具，被专家称为人工智能能力的一次飞跃式提升。

这两款模型都是OpenAI “o 系列” 推理模型的最新成员，经过训练后，它们可在响应前进行更长时间的思考。同时，它们也是OpenAI迄今发布的最智能、最强大的模型。

这些推理模型可以自主组合并使用ChatGPT内的所有工具——包括网页搜索、利用Python分析上传的文件和数据、对视觉输入进行深入推理，甚至还能生成图像。

最重要的是，这些模型不仅能判断何时使用工具，还能决定如何使用工具，从而以正确的输出格式，在一分钟内给出经过深思熟虑的详细回答，帮助解决更复杂的问题。

这意味着它们能更高效地应对多层次、多步骤的问题，让ChatGPT具备“自主执行任务”的能力。将顶级推理能力与完整工具访问权限结合在一起，让这些新模型在学术评测和实际任务中的表现都有了显着提升。

性能提升

OpenAI声称， o3是其迄今推出的最强大推理模型，在编程、数学、科学、视觉理解等多个领域均取得了突破性进展。它在多项基准测试中都创下新纪录，包括Codeforces、SWE-bench和MMMU。

OpenAI首个能"图像思考"模型:图像整合进推理链

微软CEO和奥特曼失了和,OpenAI被"断粮"

OpenAI拟收购Google这一重磅技术产品

OpenAI新模型o3和o4-mini等在数学竞赛、编程、指令遵循和工具调用方面的表现

这款模型非常适合需要多维度分析、答案并不直观的复杂查询，在视觉任务（如图像、图表和图形分析）中表现尤为突出。

根据外部专家的评估，在现实世界的高难度任务中，o3的重大错误率比OpenAI o1降低了20%，在编程、商业/咨询和创意构思等领域表现也很出色。早期测试者称其为具有极高分析能力的“思考伙伴”，尤其擅长在生物学、数学和工程领域提出并评估全新的假设。

与o3相比，OpenAI o4-mini是一款更小巧、但高效能的推理模型，专为快速、成本友好的应用场景而优化。在数学、编程和视觉任务上，它展现出了惊人的性价比。o4-mini是AIME 2024和AIME2025基准测试中表现最好的模型之一。

在专家评估中，o4-mini在非STEM任务（科学、技术、工程、数学）上的表现超越了o3-mini。凭借出色的计算效率，o4-mini支持比o3更高的使用频率，使其成为需要推理能力的高频、高吞吐量场景的理想选择。

外部专家评估认为，得益于智能水平的提升和网络信息的引入，这两款模型在遵循指令和提供更有用、可验证的回答方面均优于前代模型。与此前的推理模型相比，它们的对话体验也更加自然，尤其是在引用记忆和过往对话时，能够提供更个性化、更相关的回答。

持续扩展强化学习能力