-
日期: 2025-05-23 | 来源: AI范儿 | 有0人参与评论 | 字体: 小 中 大
5月22日,Anthropic在其首届开发者大会上发布了全新一代的Claude 4系列模型,包括旗舰级的 Opus 4、高性价比的 Sonnet 4,以及效率优先的 Haiku 4,同时推出了 Claude Code 开发工具包。它们背后的目标不再只是“更强大”,而是让 AI 成为真正“能干事”的工作搭档。
而这一次,Claude 不再只是对话模型,它开始接近一个具备自主任务执行能力、跨模态推理能力和高安全保障的 AI 系统雏形。
Claude Opus 4:不仅是更强,而是更“能干”
Claude Opus 4 是 Anthropic 目前能力最强的模型,甚至在多个维度上超越了 OpenAI Codex-1、o3 和 Gemini 2.5 Pro。
首先是推理深度和持续性。Anthropic 在内部测试中发现,Opus 4 可以在无需人类插手的情况下,连续执行一项编程任务超过 7小时,这对于构建长期自治智能体来说是里程碑式的进展。对比之下,GPT-4 通常只能持续几十分钟。
其次是编码能力。Opus 4 在代码基准测试 SWE-bench 中得分高达 72.5%,超过 OpenAI Codex-1(72.1%)和 Gemini 2.5 Pro(63.2%),成为目前已公开测试中 世界最强的代码大模型。不仅能写函数、改逻辑,它甚至可以理解跨文件结构,进行结构性重构,具备类似“工程意识”的表现。
图:Claude 4 模型在 SWE-bench Verified(真实软件工程任务性能基准测试)上领先
Claude Sonnet 4:高性价比版本,不输旗舰
如果说 Opus 4 是为了大企业和重度用户准备的,那 Sonnet 4 则是 Anthropic 为开发者和中小企业提供的“黄金版本”。
Sonnet 4 的 SWE-bench 编码得分达到 72.7%,甚至略高于 Opus。更重要的是,它在响应速度和成本上做了大量优化,非常适合用于部署到产品工作流中。对于大多数开发者来说,它几乎能满足你 90% 的需求。
图:Claude 4 模型在编码、推理、多模态能力和代理任务方面表现出色。
Claude 的模型也更加“听话”了。无论是长指令、结构化输入,还是格式化输出,Claude 4 系列在遵循复杂指令方面明显优于上一代模型,让它更像一个可靠的助理,而非只会答题的聊天机器人。
Claude Code 工具链:让 AI 真正进开发流程
为了配合 Claude 模型在工程场景的使用,Anthropic 还推出了完整的 Claude Code 工具链,包括 CLI 工具、VS Code 插件、GitHub 集成,未来还将开放 JetBrains 插件。- 新闻来源于其它媒体,内容不代表本站立场!
- 美银警告本周这天才是美股真正分水岭
- 美中恶斗分水岭:川普与他们结下兄弟情...
- 凤姐近况罕曝光:40岁身材臃肿 牙齿脱落
- 温哥华会计事务所 收费低 服务好
- 大温房屋被纵火 警方寻找三名嫌犯
-
- 最近大温将举办的大型招聘会汇总
- 温哥华在全球最佳城市排名暴跌!尤其这3项
- 特鲁多退休福利曝光:养老金近900万,纳税人埋单
- 54岁"雪姨"王琳荣获英国黑池舞蹈节第3名
- 胡锦涛罕见露面 传政治局召开"废习会"
- 林彪出逃前,毛泽东为什么要收回这幅字?
-
- 郑晓龙《藏海传》:但凡肖战演技精湛一点,才能压住这群王炸配角
- 罢免总统:国民党迎合北京的一场闹剧
- 俄乌战争带给朝鲜"沸腾"的经济(图
- 朝鲜派兵援俄惹祸:乌克兰或向国际法院起诉金正恩?
- 不堪低价冲击!欧盟拟对中国跨境电商征税
- 一文看懂肖战《藏海传》人物关系,面具人是谁?藏海仇家不止1个
-
- 有利买家 加拿大房价正进入调整期
- 温哥华牙医 采用先进技术最新设备
- 中国出口稀土需填写最终用户,进一步封堵漏洞
- 七旬老人救孙伤人获刑 改判后申请128万国家赔偿
- WHA世卫通过全球防疫大流行公约 美国表明不奉陪
- 普京"拖"字诀奏效 停火遥不可及
-
目前还没有人发表评论, 大家都在期待您的高见