-
日期: 2026-03-06 | 来源: 腾讯科技 | 有0人参与评论 | 字体: 小 中 大

手捧GPT-5.4的奥特曼。图片由AI生成
文|晓静
编辑|徐青阳
北京时间3月6日凌晨,OpenAI正式发布新一代旗舰模型GPT-5.4,官方定位为"专为专业工作而设计的最强且最高效的前沿模型"。
比起“更强更快”的常规叙事,这次发布真正值得关注的是模型角色的转变:GPT-5.4是一个为Agent而生的模型。它首次将原生计算机操控能力融入通用模型,并同时整合了GPT-5.3-Codex级别的编程能力、百万Token上下文窗口和工具搜索机制——据官方介绍,没有为整合而牺牲任何单项能力。过去让AI操作电脑需要依赖专用的Computer Use Agent,现在编程、操控电脑、调用工具由同一个模型一并完成。
跑分印证了这一点:GDPval基准测试中,GPT-5.4在83%的任务上达到或超过行业专业人士水平;OSWorld桌面操控测试成功率75%,首次超过人类基线(72.4%);编程能力与GPT-5.3-Codex持平,世界知识比GPT-5.2更强。
价格方面,GPT-5.4的API定价为输入$2.50/百万Token、输出$15,约为Claude Opus 4.6($5/$25)的一半,且支持订阅额度调用。不过Pro版依然很贵——有网友仅发了一句"Hi",GPT-5.4 Pro就认真推理了一番,直接烧掉80美元。日常轻量任务,标准版可能是更明智的选择。
在ChatGPT中,GPT-5.4以“GPT-5.4 Thinking”形式上线,逐步取代GPT-5.2 Thinking(后者将保留3个月,于2026年6月5日正式退役)。新增的前置思路概述功能让用户可以在模型执行过程中随时介入调整方向,网页版和Android已上线,iOS即将跟进。
如果用一句话概括GPT-5.4的意义,过去几年大模型的进化逻辑是"哪块短板补哪块",GPT-5.4不再单点拔高,而是把所有能力整合进同一个模型做系统性优化。一个能写代码的模型是工具,一个能写代码、打开浏览器查文档、调用API验证结果、再把输出整理成报告的模型,是工作系统。GPT-5.4更接近后者。
01 在83%的任务中达到或超过行业专业人士水平
GPT?5.4 与前代模型在多项专业能力基准测试中的表现对比
为了评估模型在真实工作环境中的表现,OpenAI使用GDPval基准测试,这项测试要求模型完成完整职业任务,而不仅仅是问答。GDPval覆盖美国GDP贡献最大的九个行业和四十四种职业场景,包括制作销售演示文稿、建立会计电子表格、安排医院急诊排班、绘制制造流程图或生成短视频内容。
- 新闻来源于其它媒体,内容不代表本站立场!
- 万斯访问巴基斯坦行程据报延后 美元延续涨势
- BC省最受喜爱品牌榜 第一名是它
- 加国房市两极分化 大城市房价下跌
-
- 假冒警察来电 多位温村人损失一万
- 大温凌晨民宅遭枪击 或与勒索相关
- 嫁丑男,被出轨?"最拽港女"现状让人吃惊!
- 和爷爷辈富豪离婚后,她手握3亿分手费炫富
- BBC主持人大温遇车祸后因感染去世
- 兰里地产专家 多年兰里地产经验
-
- 57岁许戈辉现身,如今女儿成为她的骄傲
- 许家印咬出了多少高官:曾庆红马兴瑞…
- 基辅枪击案6死14伤 调查指向恐怖作案 凶嫌被曝
- 逐玉:樊长玉拒接圣旨炖五花肉,不知升职兵权加身藏祸端!
- Netflix这部婚恐剧,把"直觉预警"做成了产品
- 反杀中国!美国大学传重磅消息,供应链将巨变?
-
- 第一季集均播放Top10,《长安二十四》《除恶》亮眼《逐玉》前三
- 力邦艺术港 展览活动拍摄场地租赁
- 中东和平前景不明?巴国高官话中有话
- 离大谱!留生温村偷车未遂还能留加
- 温市政府雇员薪资排行榜 她排首位
- 传某高校一寝室6人,仅1人找到月薪3500元工作
-
目前还没有人发表评论, 大家都在期待您的高见
