| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

新聞資訊

論壇

溫哥華地產

大溫餐館點評

溫哥華汽車

溫哥華教育

黃頁/二手

旅游

最新頂級模型GPT-5.2已上線24小時:差評如潮!


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
X 上充斥著對 GPT-5.2 的惡評。


昨天,OpenAI 十周年之際,拿出了最新的頂級模型 GPT-5.2 系列,官方號稱是「迄今為止在專業知識工作上最強大的模型系列」,在眾多基准測試中,GPT-5.2 也都刷新了最新的 SOTA 水平。




但是一夜之間口碑反轉,大批網友給 GPT-5.2 打差評。

風投公司 Menlo Ventures 合伙人 @deedydas 發帖稱,GPT 5.2 比以往任何時候都更聰明,但 OpenAI 的核心消費者群體仍然懷念 4o。

Reddit 上的 ChatGPT 用戶一致認為 GPT-5.2 太平淡、安全過度、「把成年人當幼兒園小孩對待」,而且「不像是升級,反而像是倒退」。

這是 OpenAI 的困境:他們想打造更好的模型來贏得企業市場,但更廣泛的用戶群體其實並不太在意模型的智能水平。




https://x.com/deedydas/status/1999512868195303725?s=20

SimpleBench 測試結果拉胯


有網友曬出 GPT-5.2 在 SimpleBench 上的「成績單」,GPT-5.2 的得分低於 Claude Sonnet 3.7,後者是一個差不多一年前的模型;GPT-5.2 Pro 的表現也沒好多少,勉強超過 GPT-5。



https://x.com/scaling01/status/1999466846563762290?s=20

SimpleBench 是一個 2024 年由 AI Explained(YouTube 頻道)推出的基准測試,專門測 AI 的「常識推理」能力,包括時空推理、社會常識、語言陷阱題等,總共 200 多道多選題。它設計得「簡單」,高中生水平就能輕松答對(人類基准:83.7%),但 AI 模型常栽跟頭,因為它們靠記憶和近似推理,容易忽略現實邏輯或上當。
您的點贊是對我們的鼓勵     還沒人說話啊,我想來說幾句
上一頁1234...8下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.1307 秒 and 5 DB Queries in 0.0074 秒