最新頂級模型GPT-5.2已上線24小時:差評如潮!

2025-12-13 | 來源: 機器之心 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

X 上充斥著對 GPT-5.2 的惡評。

昨天，OpenAI 十周年之際，拿出了最新的頂級模型 GPT-5.2 系列，官方號稱是「迄今為止在專業知識工作上最強大的模型系列」，在眾多基准測試中，GPT-5.2 也都刷新了最新的 SOTA 水平。

但是一夜之間口碑反轉，大批網友給 GPT-5.2 打差評。

風投公司 Menlo Ventures 合伙人 @deedydas 發帖稱，GPT 5.2 比以往任何時候都更聰明，但 OpenAI 的核心消費者群體仍然懷念 4o。

Reddit 上的 ChatGPT 用戶一致認為 GPT-5.2 太平淡、安全過度、「把成年人當幼兒園小孩對待」，而且「不像是升級，反而像是倒退」。

這是 OpenAI 的困境：他們想打造更好的模型來贏得企業市場，但更廣泛的用戶群體其實並不太在意模型的智能水平。

GPT-5.2被曝作弊!不如Gemini 3(圖

比DeepSeek貴了400倍,GPT-5.2想錢想瘋了?

雨勢未停！大溫最新大氣河流預警

https://x.com/deedydas/status/1999512868195303725?s=20

SimpleBench 測試結果拉胯

有網友曬出 GPT-5.2 在 SimpleBench 上的「成績單」，GPT-5.2 的得分低於 Claude Sonnet 3.7，後者是一個差不多一年前的模型；GPT-5.2 Pro 的表現也沒好多少，勉強超過 GPT-5。

https://x.com/scaling01/status/1999466846563762290?s=20

SimpleBench 是一個 2024 年由 AI Explained（YouTube 頻道）推出的基准測試，專門測 AI 的「常識推理」能力，包括時空推理、社會常識、語言陷阱題等，總共 200 多道多選題。它設計得「簡單」，高中生水平就能輕松答對（人類基准：83.7%），但 AI 模型常栽跟頭，因為它們靠記憶和近似推理，容易忽略現實邏輯或上當。