相信嗎?李開復:中國大模型與美國僅差6個月

2024-05-21 | 來源: AI未來指北 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

剛剛在上周開過發布會的零一萬物創始人李開復，時隔不到一周再一次在線上親自和小部分媒體溝通，並在溝通會的開始就表示“難掩興奮，所以希望馬上開發布會和大家分享這個消息。”

這個讓李開復無比興奮的消息就是，零一萬物提交的“Yi-Large” 千億參數閉源大模型在LMSYS Org發布的Chatbot Arena取得了總榜排名第七的成績。

過去一年的模型能力大戰中，每次新模型的發布，模型能力Benchmark評分就會作為標准動作被同時公布，來評測模型的各種綜合能力。但是，究竟如何解讀這些評分？哪些才是有公信力的評測標准集，行業內並沒有統一的標准。

但是在Gpt-4o發布後，OpenAI CEO Sam Altman親自轉帖引用 LMSYS arena 盲測擂台的測試結果。

為什麼Sam Altman會引用LMSYS 的結果？為什麼在這個榜單取得成績會讓李開復興奮不已？

LMSYS Org發布的Chatbot Arena，關鍵詞是盲測和開放。用通俗的語言來描述就是，它的模式是通過眾包的方式對大模型進行匿名評測，用戶可以在官網輸入問題，然後由一個或者多個用戶並不知道品牌的大模型同時返回結果，用戶根據自己的期望對效果進行投票。

中國AI硬件已超美國?李開復:全球幾乎無人能敵

李開復:AI時代會讓每個App都比人類更聰明

AI對人類的3大威脅! 赫拉利對話李開復

在收集真實用戶投票數據之後，LMSYS Chatbot Arena還使用Elo評分系統來量化模型的表現，進一步優化評分機制，力求公平反應參與者的實力。最後用Elo評分系統來得出綜合得分。通俗地來講，在Elo評分系統中，每個參與者都會獲得基准評分。每場比賽結束後，參與者的評分會基於比賽結果進行調整。系統會根據參與者評分來計算其贏得比賽的概率，一旦低分選手擊敗高分選手，那麼低分選手就會獲得較多的分數，反之則較少。

評測界面

在海外大廠高管中，不只Sam Altman，Google DeepMind首席科學家Jeff Dean也曾引用LMSYS Chatbot Arena的排名數據，來佐證Bard產品的性能。OpenAI、Google等自身的旗艦模型發布後第一時間提交給LMSYS，本身確實顯示了海外頭部大廠對於Chatbot Arena的極大尊重。

美國時間2024年5月20日剛刷新的 LMSYS Chatboat Arena 盲測結果，來自至今積累超過 1170萬的全球用戶真實投票數：此次Chatbot Arena共有44款模型參賽，既包含了頂尖開源模型Llama3-70B，也包含了各家大廠的閉源模型。

在這個榜單上，我們也看到了中國大模型的身影，智譜GLM4、阿裡Qwen Max、Qwen 1.5、零一萬物Yi-Large、Yi-34B-chat 此次都有參與盲測，零一萬物提交的“Yi-Large” 千億參數閉源大模型總榜排名第七，在總榜之外，LMSYS 的語言類別上新增了英語、中文、法文三種語言評測，開始注重全球大模型的多樣性。Yi-Large的中文語言分榜上拔得頭籌，與 OpenAI 官宣才一周的地表最強 GPT4o 並列第一，Qwen-Max 和 GLM-4 在中文榜上也都表現不凡。