News 生活资讯社区专栏原创图片新闻 Recent News 评论搜索科技信息

AI工具进化分水岭:首个连续上班7小时的AI来了

在OpenAI 和 Google 接连发布大模型后，Anthropic终于也亮出了底牌。

5月22日，Anthropic在其首届开发者大会上发布了全新一代的Claude 4系列模型，包括旗舰级的 Opus 4、高性价比的 Sonnet 4，以及效率优先的 Haiku 4，同时推出了 Claude Code 开发工具包。它们背后的目标不再只是“更强大”，而是让 AI 成为真正“能干事”的工作搭档。

而这一次，Claude 不再只是对话模型，它开始接近一个具备自主任务执行能力、跨模态推理能力和高安全保障的 AI 系统雏形。

Claude Opus 4：不仅是更强，而是更“能干”

Claude Opus 4 是 Anthropic 目前能力最强的模型，甚至在多个维度上超越了 OpenAI Codex-1、o3 和 Gemini 2.5 Pro。

首先是推理深度和持续性。Anthropic 在内部测试中发现，Opus 4 可以在无需人类插手的情况下，连续执行一项编程任务超过 7小时，这对于构建长期自治智能体来说是里程碑式的进展。对比之下，GPT-4 通常只能持续几十分钟。

其次是编码能力。Opus 4 在代码基准测试 SWE-bench 中得分高达 72.5%，超过 OpenAI Codex-1（72.1%）和 Gemini 2.5 Pro（63.2%），成为目前已公开测试中世界最强的代码大模型。不仅能写函数、改逻辑，它甚至可以理解跨文件结构，进行结构性重构，具备类似“工程意识”的表现。

图：Claude 4 模型在 SWE-bench Verified（真实软件工程任务性能基准测试）上领先

全球瞩目!本周五,会是历史分水岭时刻吗

库尔斯克战役2.0,难成俄乌战争分水岭

美中恶斗分水岭:川普与他们结下兄弟情...

Claude Sonnet 4：高性价比版本，不输旗舰

如果说 Opus 4 是为了大企业和重度用户准备的，那 Sonnet 4 则是 Anthropic 为开发者和中小企业提供的“黄金版本”。

Sonnet 4 的 SWE-bench 编码得分达到 72.7%，甚至略高于 Opus。更重要的是，它在响应速度和成本上做了大量优化，非常适合用于部署到产品工作流中。对于大多数开发者来说，它几乎能满足你 90% 的需求。

图：Claude 4 模型在编码、推理、多模态能力和代理任务方面表现出色。

Claude 的模型也更加“听话”了。无论是长指令、结构化输入，还是格式化输出，Claude 4 系列在遵循复杂指令方面明显优于上一代模型，让它更像一个可靠的助理，而非只会答题的聊天机器人。

Claude Code 工具链：让 AI 真正进开发流程

为了配合 Claude 模型在工程场景的使用，Anthropic 还推出了完整的 Claude Code 工具链，包括 CLI 工具、VS Code 插件、GitHub 集成，未来还将开放 JetBrains 插件。