| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

新闻资讯

论坛

温哥华地产

大温餐馆点评

温哥华汽车

温哥华教育

黄页/二手

旅游

网民熬夜玩儿疯,Claude Opus 4.7来了


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
用Mythos向外界虚晃一枪后,Anthropic猝不及防把Claude Opus 4.7抬了上来。


不少小伙伴都熬夜玩儿疯了!

一骨碌从床上坐起来边冲浪边上手体验,我从Opus 4.7身上总结了一个坏消息和一些好消息。


先说坏消息吧——Opus 4.7身上,怎么看怎么有点故人之姿。

动不动就要“稳稳接住”我。

不少网友也反馈,怎么说是升级,但Opus 4.7越用越像GPT???

如果是真的,这可不是什么好事情(无奈闭眼.jpg)。

相比坏消息只有一个,好消息那是有一箩筐。

在Agentic coding、Agentic terminal coding、Scaled tool use、Visual reasoning等多个方面,都比前作更好。但Agentic search等几个单项能力上有所下降。

Anthropic还很臭屁地表示:

Opus 4.7是我们家目前最强大的公开可用模型。

不过这不是我们最强大的模型哟~~

看来最强大的还是密而不发的Mythos。

看看上面的表格,Mythos在那些测试上的整体表现,均优越约10%至15%。

毫无疑问,Mythos Preview是目前Anthropic手里最夯的一张牌,能力拉满,但价格也是Opus 4.7的5倍。

相比之下,Opus 4.7更像是安全体系完成全验证、定价亲民且全平台开放的最强量产版。

但……所谓智者千虑必有一失。

强大的Opus 4.7还是在昨日的阴沟里面翻了船:

Claude Opus 4.7突袭,核心升级四大方向

通览下来,这个公开最强的Opus 4.7,在四个方向上都有突出表现。

高级软件工程领域:值得托付

Opus 4.7最显著的进步在高级软件工程领域。


来看这组数据:

SWE-bench Verified测试达到78.2%;

SWE-bench Multimodal达到72.7%;

Terminal-Bench 2.0拿下68.8%;

Rakuten-SWE-Bench 中解决生产任务的数量更是Opus 4.6的3倍;

GitHub 93项任务编码基准也提升了13%。

Cursor的CEO Michael Truell给出了一个关键评价:

在CursorBench上,Opus 4.7从58%跃升到70%,这个跃升意义重大。


这种提升体现在三个关键特性上。

第一,严格遵循指令。

Opus 4.7不再像早期模型那样“灵活解读”用户的模糊表述,而是字面执行。

这意味着以前你写“如果可能的话,尝试优化这段代码”这种提示词,模型可能会选择性忽略。

现在你说“优化这段代码”,它就一定会执行。

这种变化要求用户重新调整提示词策略,软修饰符如“if possible/ideally/try to”的权重变得更高,硬限制需要更明确。

第二,输出前自我验证。

Opus 4.7会在报告结果前devise ways to verify its own outputs,就像一个资深工程师在提交代码前会自己跑一遍测试。

第三,擅长复杂多文件变更、模糊调试、跨服务代码审查。

Notion的AI Lead Sarah Sachs分享了一个数据:

面对复杂多步骤工作流,Opus 4.7比Opus 4.6提升14%,而且token消耗更少,工具错误只有三分之一。

它是第一个通过我们隐性需求测试的模型。

视觉能力:分辨率×3,看见更多细节

在视觉能力方面,Opus 4.7也有很不错的进步。
您的点赞是对我们的鼓励     无评论不新闻,发表一下您的意见吧
上一页123下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.1433 秒 and 5 DB Queries in 0.0017 秒