GPT-5.2獲封"最強打工人" Gemini"性價比"系列應戰

2025-12-13 | 來源: 鈦媒體APP | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

圖片由AI生成

“我從未像現在這樣對我們的研發和產品路線圖，以及實現我們使命的整體方向感到如此樂觀。”

12月12日，在正式上線GPT-5.2的同時，OpenAI CEO薩姆·奧爾特曼（Sam Altman）發布了一篇十周年紀念文章中這樣說。

他極力向外界展現著自己依舊自信的一面。畢竟，雖然GPT大模型和ChatGPT聊天機器人至今仍是當前AI大潮的造浪者，但想必此刻，奧爾特曼感受到的競爭壓力堪稱空前。

今年以來，DeepSeek、Grok、Claude等競爭者的強勢追趕，尤其是谷歌上個月推出的Gemini 3大放異彩，都將AI大模型競爭推上了更新的高度。

最近，奧爾特曼先是在內部備忘錄中提示員工，需要接受最好的大模型不出自家之手的事實，繼而，又發出公司首個“紅色警報”，強調“立即行動，集中所有資源奪回領先地位”。

截圖來自社交平台X

只有更強大的產品，才能支撐自信的底氣。

Google首席AI架構師:Gemini 逆風翻盤有18個關鍵

Google Gemini最新功能曝光畫圈搜尋落伍了

讀完8家頂級投行的2026展望,Gemini給總結

在十周年紀念日這天，OpenAI重磅發布預熱了一周多的GPT-5.2，評測表現再次反超所有競爭對手。

但谷歌不甘示弱，幾乎在同一時間發布了新品，讓這場大模型之爭的戰況再次升級。

GPT-5.2獲評“最強AI打工人”，但“工資”很高

GPT-5.2此次仍然“全線出擊”，一次性發布了Instant、Thinking和Pro三款不同層級的模型。

近一個月前Gemini 3發布時，其評測得分幾乎“碾壓”GPT-5的表現引發市場巨大關注。

而這次，根據OpenAI發布的基准測試結果，GPT-5.2實現了全面反超，其Thinking模型基准測試得分均高於Gemini 3 PRO和Anthropic的Claude Opus 4.5。

其中，GPT-5.2在博士級別的專家推理評估GPQA Diamond得分高達92.4%，相比GPT-5.1 Thinking的88.1%和Gemini 3 PRO剛剛刷出的91.9%高分再進一步。在不用工具的情況下，GPT-5.2在最新美國數學邀請賽（AIME2025）中拿到了滿分。

OpenAI尤其強調了GPT-5.2在專業工作方面的領先地位，稱其Thinking模型是“目前最能夠勝任現實中各類專業用途的模型”。

在用於評估專業型技能的GDPval測試中，該模型得到了70.9%的高分，比GPT-5.1 Thinking高了足足32.1%，領先Gemini 3 PRO有17.4%。此外，對比尤其擅長編程等企業工作，此前在該評估中更勝一籌的Claude Opus 4.5，OpenAI的新品也高出了11.3%。