| Contact Us | CHT | Mobile | Wechat | Weibo | Search:
Welcome Visitors | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

Home

News

Forums

Realty

大温餐馆点评

Car

Education

Yellow Page

Travel

AI工具进化分水岭:首个连续上班7小时的AI来了

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
在OpenAI 和 Google 接连发布大模型后,Anthropic终于也亮出了底牌。


5月22日,Anthropic在其首届开发者大会上发布了全新一代的Claude 4系列模型,包括旗舰级的 Opus 4、高性价比的 Sonnet 4,以及效率优先的 Haiku 4,同时推出了 Claude Code 开发工具包。它们背后的目标不再只是“更强大”,而是让 AI 成为真正“能干事”的工作搭档。

而这一次,Claude 不再只是对话模型,它开始接近一个具备自主任务执行能力、跨模态推理能力和高安全保障的 AI 系统雏形。


Claude Opus 4:不仅是更强,而是更“能干”

Claude Opus 4 是 Anthropic 目前能力最强的模型,甚至在多个维度上超越了 OpenAI Codex-1、o3 和 Gemini 2.5 Pro。

首先是推理深度和持续性。Anthropic 在内部测试中发现,Opus 4 可以在无需人类插手的情况下,连续执行一项编程任务超过 7小时,这对于构建长期自治智能体来说是里程碑式的进展。对比之下,GPT-4 通常只能持续几十分钟。

其次是编码能力。Opus 4 在代码基准测试 SWE-bench 中得分高达 72.5%,超过 OpenAI Codex-1(72.1%)和 Gemini 2.5 Pro(63.2%),成为目前已公开测试中 世界最强的代码大模型。不仅能写函数、改逻辑,它甚至可以理解跨文件结构,进行结构性重构,具备类似“工程意识”的表现。



图:Claude 4 模型在 SWE-bench Verified(真实软件工程任务性能基准测试)上领先


Claude Sonnet 4:高性价比版本,不输旗舰

如果说 Opus 4 是为了大企业和重度用户准备的,那 Sonnet 4 则是 Anthropic 为开发者和中小企业提供的“黄金版本”。

Sonnet 4 的 SWE-bench 编码得分达到 72.7%,甚至略高于 Opus。更重要的是,它在响应速度和成本上做了大量优化,非常适合用于部署到产品工作流中。对于大多数开发者来说,它几乎能满足你 90% 的需求。




图:Claude 4 模型在编码、推理、多模态能力和代理任务方面表现出色。

Claude 的模型也更加“听话”了。无论是长指令、结构化输入,还是格式化输出,Claude 4 系列在遵循复杂指令方面明显优于上一代模型,让它更像一个可靠的助理,而非只会答题的聊天机器人。

Claude Code 工具链:让 AI 真正进开发流程

为了配合 Claude 模型在工程场景的使用,Anthropic 还推出了完整的 Claude Code 工具链,包括 CLI 工具、VS Code 插件、GitHub 集成,未来还将开放 JetBrains 插件。
点个赞吧!您的鼓励让我们进步     还没人说话啊,我想来说几句
Prev Page12Next Page
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _VIEW_NEWS_FULL
    _RELATED_NEWS:
    _RELATED_NEWS_MORE:
    _POSTMYCOMMENT:
    Comment:
    Security Code:
    Please input the number which is shown on the following picture
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    Page Generation: 0.0298 Seconds and 5 DB Queries in 0.0016 Seconds