OpenAI最强推理模型o4-mini来了 这次什么新功能?
北京时间4月17日凌晨,OpenAI 发布了两款突破性AI模型——o3和o4-mini,它们能通过图像进行推理,并可自主调用多种工具,被专家称为人工智能能力的一次飞跃式提升。

这两款模型都是OpenAI “o 系列” 推理模型的最新成员,经过训练后,它们可在响应前进行更长时间的思考。同时,它们也是OpenAI迄今发布的最智能、最强大的模型。
这些推理模型可以自主组合并使用ChatGPT内的所有工具——包括网页搜索、利用Python分析上传的文件和数据、对视觉输入进行深入推理,甚至还能生成图像。
最重要的是,这些模型不仅能判断何时使用工具,还能决定如何使用工具,从而以正确的输出格式,在一分钟内给出经过深思熟虑的详细回答,帮助解决更复杂的问题。
这意味着它们能更高效地应对多层次、多步骤的问题,让ChatGPT具备“自主执行任务”的能力。将顶级推理能力与完整工具访问权限结合在一起,让这些新模型在学术评测和实际任务中的表现都有了显着提升。
性能提升
OpenAI声称, o3是其迄今推出的最强大推理模型,在编程、数学、科学、视觉理解等多个领域均取得了突破性进展。它在多项基准测试中都创下新纪录,包括Codeforces、SWE-bench和MMMU。

OpenAI新模型o3和o4-mini等在数学竞赛、编程、指令遵循和工具调用方面的表现
这款模型非常适合需要多维度分析、答案并不直观的复杂查询,在视觉任务(如图像、图表和图形分析)中表现尤为突出。
根据外部专家的评估,在现实世界的高难度任务中,o3的重大错误率比OpenAI o1降低了20%,在编程、商业/咨询和创意构思等领域表现也很出色。早期测试者称其为具有极高分析能力的“思考伙伴”,尤其擅长在生物学、数学和工程领域提出并评估全新的假设。
与o3相比,OpenAI o4-mini是一款更小巧、但高效能的推理模型,专为快速、成本友好的应用场景而优化。在数学、编程和视觉任务上,它展现出了惊人的性价比。o4-mini是AIME 2024和AIME2025基准测试中表现最好的模型之一。
在专家评估中,o4-mini在非STEM任务(科学、技术、工程、数学)上的表现超越了o3-mini。凭借出色的计算效率,o4-mini支持比o3更高的使用频率,使其成为需要推理能力的高频、高吞吐量场景的理想选择。
外部专家评估认为,得益于智能水平的提升和网络信息的引入,这两款模型在遵循指令和提供更有用、可验证的回答方面均优于前代模型。与此前的推理模型相比,它们的对话体验也更加自然,尤其是在引用记忆和过往对话时,能够提供更个性化、更相关的回答。
持续扩展强化学习能力
您的点赞是对我们的鼓励
这条新闻还没有人评论喔,等着您的高见呢

这两款模型都是OpenAI “o 系列” 推理模型的最新成员,经过训练后,它们可在响应前进行更长时间的思考。同时,它们也是OpenAI迄今发布的最智能、最强大的模型。
这些推理模型可以自主组合并使用ChatGPT内的所有工具——包括网页搜索、利用Python分析上传的文件和数据、对视觉输入进行深入推理,甚至还能生成图像。
最重要的是,这些模型不仅能判断何时使用工具,还能决定如何使用工具,从而以正确的输出格式,在一分钟内给出经过深思熟虑的详细回答,帮助解决更复杂的问题。
这意味着它们能更高效地应对多层次、多步骤的问题,让ChatGPT具备“自主执行任务”的能力。将顶级推理能力与完整工具访问权限结合在一起,让这些新模型在学术评测和实际任务中的表现都有了显着提升。
性能提升
OpenAI声称, o3是其迄今推出的最强大推理模型,在编程、数学、科学、视觉理解等多个领域均取得了突破性进展。它在多项基准测试中都创下新纪录,包括Codeforces、SWE-bench和MMMU。

OpenAI新模型o3和o4-mini等在数学竞赛、编程、指令遵循和工具调用方面的表现
这款模型非常适合需要多维度分析、答案并不直观的复杂查询,在视觉任务(如图像、图表和图形分析)中表现尤为突出。
根据外部专家的评估,在现实世界的高难度任务中,o3的重大错误率比OpenAI o1降低了20%,在编程、商业/咨询和创意构思等领域表现也很出色。早期测试者称其为具有极高分析能力的“思考伙伴”,尤其擅长在生物学、数学和工程领域提出并评估全新的假设。
与o3相比,OpenAI o4-mini是一款更小巧、但高效能的推理模型,专为快速、成本友好的应用场景而优化。在数学、编程和视觉任务上,它展现出了惊人的性价比。o4-mini是AIME 2024和AIME2025基准测试中表现最好的模型之一。
在专家评估中,o4-mini在非STEM任务(科学、技术、工程、数学)上的表现超越了o3-mini。凭借出色的计算效率,o4-mini支持比o3更高的使用频率,使其成为需要推理能力的高频、高吞吐量场景的理想选择。
外部专家评估认为,得益于智能水平的提升和网络信息的引入,这两款模型在遵循指令和提供更有用、可验证的回答方面均优于前代模型。与此前的推理模型相比,它们的对话体验也更加自然,尤其是在引用记忆和过往对话时,能够提供更个性化、更相关的回答。
持续扩展强化学习能力


分享: |
注: | 在此页阅读全文 |