OpenAI最强推理模型o4-mini来了这次什么新功能?

2025-04-17 | 来源: 腾讯科技 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

在OpenAI o3的开发过程中，OpenAI发现大规模强化学习（RL）呈现出与GPT系列预训练相同的规律——“计算量越大，性能越强”。

同时，模型在被允许“思考”得越久，表现就越好。

在相同延迟和成本条件下，o3在ChatGPT中的表现优于o1。同时，如果允许模型进行更长时间的思考，它的表现还会进一步提升。

OpenAI通过强化学习训练这两款模型如何使用工具，还让它们学会判断何时使用工具，从而在开放式任务中表现更出色，尤其是在视觉推理和多步骤工作流程任务中。

首次实现图像思维链整合

在上述示例中，OpenAI首次展示了其模型如何将图像直接整合进推理思维链中。模型不仅能“看到”图像，更能“用图像进行思考”。这一突破实现了视觉与文本推理的深度融合，使其在多模态基准测试中达到最先进水平。

用户可以上传照片，比如：白板内容、教科书里的图示，甚至是手绘草图，模型都能理解它们。即使图像存在模糊、倒置或低质量的情况，模型仍能准确解析。

结合工具调用能力，模型还能在推理过程中即时操控图像，比如旋转、缩放、格式转换等，让图像处理成为其思考的一部分。

这些模型在视觉感知任务中表现出业界领先的准确率，能解决过去难以应对的问题。

微软执行长:中国DeepSeek R1足以匹敌OpenAI

iPhone大神联手OpenAI 首款AI装置细节曝光

苹果传奇人物Jony Ive加入OpenAI领导设计工作

自主完成工具调用

OpenAI 的o3和o4-mini模型在ChatGPT中拥有对所有工具的完整访问权限，开发者还可以通过API中的函数调用功能接入自定义工具。

例如，当用户提出“与去年相比，加州今年夏天的能源使用情况有何变化？”这个问题时，模型可以执行一连串工具调用：搜索公共能源数据、编写Python代码进行预测、生成图表或图像，并解释预测背后的关键因素。

通过推理，它可以根据新获取的信息灵活应变，例如多次搜索不同关键词、分析结果、再尝试新的搜索策略。

这种灵活、策略性较强的方式，使模型能够完成那些超出其内部知识、需要实时信息、跨模态推理与综合输出的复杂任务。

性价比

OpenAI称o3和o4-mini在很多情况下，它们都比各自的前代o1与o3-mini更高效，也更节省成本。在AME2025基准测试中，性价比都远远超过前代模型。