| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

新聞資訊

論壇

溫哥華地產

大溫餐館點評

溫哥華汽車

溫哥華教育

黃頁/二手

旅游

網民熬夜玩兒瘋,Claude Opus 4.7來了


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
用Mythos向外界虛晃一槍後,Anthropic猝不及防把Claude Opus 4.7抬了上來。


不少小伙伴都熬夜玩兒瘋了!

一骨碌從床上坐起來邊沖浪邊上手體驗,我從Opus 4.7身上總結了一個壞消息和一些好消息。


先說壞消息吧——Opus 4.7身上,怎麼看怎麼有點故人之姿。

動不動就要“穩穩接住”我。

不少網友也反饋,怎麼說是升級,但Opus 4.7越用越像GPT???

如果是真的,這可不是什麼好事情(無奈閉眼.jpg)。

相比壞消息只有一個,好消息那是有一籮筐。

在Agentic coding、Agentic terminal coding、Scaled tool use、Visual reasoning等多個方面,都比前作更好。但Agentic search等幾個單項能力上有所下降。

Anthropic還很臭屁地表示:

Opus 4.7是我們家目前最強大的公開可用模型。

不過這不是我們最強大的模型喲~~

看來最強大的還是密而不發的Mythos。

看看上面的表格,Mythos在那些測試上的整體表現,均優越約10%至15%。

毫無疑問,Mythos Preview是目前Anthropic手裡最夯的一張牌,能力拉滿,但價格也是Opus 4.7的5倍。

相比之下,Opus 4.7更像是安全體系完成全驗證、定價親民且全平台開放的最強量產版。

但……所謂智者千慮必有一失。

強大的Opus 4.7還是在昨日的陰溝裡面翻了船:

Claude Opus 4.7突襲,核心升級四大方向

通覽下來,這個公開最強的Opus 4.7,在四個方向上都有突出表現。

高級軟件工程領域:值得托付

Opus 4.7最顯著的進步在高級軟件工程領域。


來看這組數據:

SWE-bench Verified測試達到78.2%;

SWE-bench Multimodal達到72.7%;

Terminal-Bench 2.0拿下68.8%;

Rakuten-SWE-Bench 中解決生產任務的數量更是Opus 4.6的3倍;

GitHub 93項任務編碼基准也提升了13%。

Cursor的CEO Michael Truell給出了一個關鍵評價:

在CursorBench上,Opus 4.7從58%躍升到70%,這個躍升意義重大。


這種提升體現在三個關鍵特性上。

第一,嚴格遵循指令。

Opus 4.7不再像早期模型那樣“靈活解讀”用戶的模糊表述,而是字面執行。

這意味著以前你寫“如果可能的話,嘗試優化這段代碼”這種提示詞,模型可能會選擇性忽略。

現在你說“優化這段代碼”,它就一定會執行。

這種變化要求用戶重新調整提示詞策略,軟修飾符如“if possible/ideally/try to”的權重變得更高,硬限制需要更明確。

第二,輸出前自我驗證。

Opus 4.7會在報告結果前devise ways to verify its own outputs,就像一個資深工程師在提交代碼前會自己跑一遍測試。

第三,擅長復雜多文件變更、模糊調試、跨服務代碼審查。

Notion的AI Lead Sarah Sachs分享了一個數據:

面對復雜多步驟工作流,Opus 4.7比Opus 4.6提升14%,而且token消耗更少,工具錯誤只有三分之一。

它是第一個通過我們隱性需求測試的模型。

視覺能力:分辨率×3,看見更多細節

在視覺能力方面,Opus 4.7也有很不錯的進步。
您的點贊是對我們的鼓勵     好新聞沒人評論怎麼行,我來說幾句
上一頁123下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0624 秒 and 5 DB Queries in 0.0023 秒