温哥华Lipont Place力邦艺术港:活动场地租赁,拍摄场地租赁!

OpenAI最强推理模型o4-mini来了 这次什么新功能?

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
在OpenAI o3的开发过程中,OpenAI发现大规模强化学习(RL)呈现出与GPT系列预训练 相同的规律——“计算量越大,性能越强”。

同时,模型在被允许“思考”得越久,表现就越好。

在相同延迟和成本条件下,o3在ChatGPT中的表现优于o1。同时,如果允许模型进行更长时间的思考,它的表现还会进一步提升。


OpenAI通过强化学习训练这两款模型如何使用工具,还让它们学会判断何时使用工具,从而在开放式任务中表现更出色,尤其是在视觉推理和多步骤工作流程任务中。

首次实现图像思维链整合



在上述示例中,OpenAI首次展示了其模型如何将图像直接整合进推理思维链中。模型不仅能“看到”图像,更能“用图像进行思考”。这一突破实现了视觉与文本推理的深度融合,使其在多模态基准测试中达到最先进水平。

用户可以上传照片,比如:白板内容、教科书里的图示,甚至是手绘草图,模型都能理解它们。即使图像存在模糊、倒置或低质量的情况,模型仍能准确解析。

结合工具调用能力,模型还能在推理过程中即时操控图像,比如旋转、缩放、格式转换等,让图像处理成为其思考的一部分。

这些模型在视觉感知任务中表现出业界领先的准确率,能解决过去难以应对的问题。


自主完成工具调用

OpenAI 的o3和o4-mini模型在ChatGPT中拥有对所有工具的完整访问权限,开发者还可以通过API中的函数调用功能接入自定义工具。

例如,当用户提出“与去年相比,加州今年夏天的能源使用情况有何变化?”这个问题时,模型可以执行一连串工具调用:搜索公共能源数据、编写Python代码进行预测、生成图表或图像,并解释预测背后的关键因素。


通过推理,它可以根据新获取的信息灵活应变,例如多次搜索不同关键词、分析结果、再尝试新的搜索策略。

这种灵活、策略性较强的方式,使模型能够完成那些超出其内部知识、需要实时信息、跨模态推理与综合输出的复杂任务。

性价比

OpenAI称o3和o4-mini在很多情况下,它们都比各自的前代o1与o3-mini更高效,也更节省成本。在AME2025基准测试中,性价比都远远超过前代模型。



价格方面,OpenAI o3的输入为每100万个tokens收费10美元,缓存输入为每100万个tokens收费2.5美元,输出为每100万个tokens收费40美元。
点个赞吧!您的鼓励让我们进步     无评论不新闻,发表一下您的意见吧
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文

    猜您喜欢

    您可能也喜欢

    当前评论

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *:
    安全校验码 *:
    请在此处输入图片中的数字
    The Captcha image
      (请在此处输入图片中的数字)

    Copyright © 加西网, all rights are reserved.

    加西网为北美中文网传媒集团旗下网站