| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

新聞資訊

論壇

溫哥華地產

大溫餐館點評

溫哥華汽車

溫哥華教育

黃頁/二手

旅游

相信嗎?李開復:中國大模型與美國僅差6個月


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
剛剛在上周開過發布會的零一萬物創始人李開復,時隔不到一周再一次在線上親自和小部分媒體溝通,並在溝通會的開始就表示“難掩興奮,所以希望馬上開發布會和大家分享這個消息。”


這個讓李開復無比興奮的消息就是,零一萬物提交的“Yi-Large” 千億參數閉源大模型在LMSYS Org發布的Chatbot Arena取得了總榜排名第七的成績。

過去一年的模型能力大戰中,每次新模型的發布,模型能力Benchmark評分就會作為標准動作被同時公布,來評測模型的各種綜合能力。但是,究竟如何解讀這些評分?哪些才是有公信力的評測標准集,行業內並沒有統一的標准。


但是在Gpt-4o發布後,OpenAI CEO Sam Altman親自轉帖引用 LMSYS arena 盲測擂台的測試結果。



為什麼Sam Altman會引用LMSYS 的結果?為什麼在這個榜單取得成績會讓李開復興奮不已?

LMSYS Org發布的Chatbot Arena,關鍵詞是盲測和開放。用通俗的語言來描述就是,它的模式是通過眾包的方式對大模型進行匿名評測,用戶可以在官網輸入問題,然後由一個或者多個用戶並不知道品牌的大模型同時返回結果,用戶根據自己的期望對效果進行投票。


在收集真實用戶投票數據之後,LMSYS Chatbot Arena還使用Elo評分系統來量化模型的表現,進一步優化評分機制,力求公平反應參與者的實力。最後用Elo評分系統來得出綜合得分。通俗地來講,在Elo評分系統中,每個參與者都會獲得基准評分。每場比賽結束後,參與者的評分會基於比賽結果進行調整。系統會根據參與者評分來計算其贏得比賽的概率,一旦低分選手擊敗高分選手,那麼低分選手就會獲得較多的分數,反之則較少。




評測界面

在海外大廠高管中,不只Sam Altman,Google DeepMind首席科學家Jeff Dean也曾引用LMSYS Chatbot Arena的排名數據,來佐證Bard產品的性能。OpenAI、Google等自身的旗艦模型發布後第一時間提交給LMSYS,本身確實顯示了海外頭部大廠對於Chatbot Arena的極大尊重。

美國時間2024年5月20日剛刷新的 LMSYS Chatboat Arena 盲測結果,來自至今積累超過 1170萬的全球用戶真實投票數:此次Chatbot Arena共有44款模型參賽,既包含了頂尖開源模型Llama3-70B,也包含了各家大廠的閉源模型。

在這個榜單上,我們也看到了中國大模型的身影,智譜GLM4、阿裡Qwen Max、Qwen 1.5、零一萬物Yi-Large、Yi-34B-chat 此次都有參與盲測,零一萬物提交的“Yi-Large” 千億參數閉源大模型總榜排名第七,在總榜之外,LMSYS 的語言類別上新增了英語、中文、法文三種語言評測,開始注重全球大模型的多樣性。Yi-Large的中文語言分榜上拔得頭籌,與 OpenAI 官宣才一周的地表最強 GPT4o 並列第一,Qwen-Max 和 GLM-4 在中文榜上也都表現不凡。
點個贊吧!您的鼓勵讓我們進步     好新聞沒人評論怎麼行,我來說幾句
上一頁123456下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0277 秒 and 4 DB Queries in 0.0018 秒