OpenAI发布GPT-5.5:全面超越Claude与Gemini


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
GPT-5.5在编程、科研与知识工作领域测试中全面超越Claude和Gemini,且以与前代相当的推理延迟实现更高智能。工程师实测直言"像在与更高层次智慧生物协作"。GPT-5.5周四面向ChatGPT及编程工具Codex的付费用户开放。

OpenAI推出迄今最强大模型GPT-5.5,在代码编写、科学研究及知识工作领域实现跨越式提升,同时以与前代模型相当的推理延迟实现更高智能水平,标志着AI从问答工具向自主完成复杂计算机任务的代理系统全面演进。

在模型能力上,GPT-5.5在Terminal-Bench 2.0编程测试、在衡量代理操控真实计算机环境的OSWorld-Verified基准和测试跨44种职业知识工作能力的GDPval基准等多重测试中均领先于Claude Opus 4.7及Gemini 3.1 Pro。


GPT-5.5即日起向ChatGPT的Plus、Pro、Business及Enterprise用户开放,Codex平台同步推出。API定价方面,OpenAI表示,尽管GPT-5.5定价高于前代,但其更高的token效率使综合使用成本具备竞争力。

OpenAI联创兼总裁Greg Brockman表示,该模型能够在指令有限的情况下自主处理任务,可调用邮件、表格、日历等应用程序执行用户命令。"它会自行想办法解决,应对模糊情境,"他说,"这是一种更直觉化的体验。"

MagicPath CEO Pietro Schirano指出,GPT-5.5在约20分钟内一次性完成了一次涵盖数百项前端改动与重构更改的分支合并任务。其直言:“感觉就像是在和更高层次的智慧生物一起工作,甚至会产生一种敬畏之情。”



性能飞跃:更高智能,同等延迟


GPT-5.5的核心技术突破在于打破了"更强即更慢"的模型规律。OpenAI表示,GPT-5.5在实际服务环境中实现了与GPT-5.4相当的延迟,同时在多项基准测试中大幅领先前代。

在代理编程领域:


GPT-5.5在Terminal-Bench 2.0上得分82.7%,较GPT-5.4的75.1%提升显着;在测试真实GitHub问题解决能力的SWE-Bench Pro上达到58.6%;在内部长周期编程任务基准Expert-SWE(任务中位完成时间约20小时)上同样超越GPT-5.4。



值得关注的是,GPT-5.5在上述三项测试中均以更少的token消耗实现了更高得分。

在计算机使用方面,GPT-5.5在OSWorld-Verified测试中以78.7%的成绩领先Claude Opus 4.7的78.0%。在工具调用测试Tau2-bench Telecom中,GPT-5.5在无提示词调优的条件下达到98.0%,而GPT-5.4仅为92.8%。

根据外部评估机构Artificial Analysis的编程综合指数,GPT-5.5以约为竞争前沿编程模型一半的成本实现了同等水平的智能表现。
不错的新闻,我要点赞     这条新闻还没有人评论喔,等着您的高见呢
上一页1234下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文

    猜您喜欢

    您可能也喜欢

    当前评论

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *:
    安全校验码 *:
    请在此处输入图片中的数字
    The Captcha image
      (请在此处输入图片中的数字)

     
    Copyright © 加西网, all rights are reserved.

    加西网为北美中文网传媒集团旗下网站