| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

新聞資訊

論壇

溫哥華地產

大溫餐館點評

溫哥華汽車

溫哥華教育

黃頁/二手

旅游

相信嗎?李開復:中國大模型與美國僅差6個月


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
所以我覺得後發有後發的優勢,但同時我們特別尊敬美國這些創造性,他們的論文希望他們繼續寫,我們是每一篇都會仔細閱讀,我們跟他們有很多學習的地方。但是比執行力,比做出一個很好的體驗,做比產品,比商業模式,我覺得我們強於美國公司。


Q:現在有很多榜單,比如之前零一萬物引用的斯坦福的Alpaca Eval,現在又有大模型競技場,哪些評測會比較客觀呢?

李開復:我覺得這兩個都是客觀公正的,Alpaca Eval是斯坦福大學用GPT4評測的,今天的LMSYS是真的幾萬個人評估一個模型,嚴格要我挑哪一個更可信的話,雖然我們在Alpaca排名更高,但是我覺得LMSYS是更可信的。


黃文灝:很多benchmark,包括我們之前大家會比MMLU、GSM8K這些,之前benchmark的題都是死的,它是有一個確定的評測集,當題目已經完全確定以後,大家可以在上面針對題目做一些合成數據,使模型在某一些方面能力變得更高。

而LMSYS它有幾方面比較好,一方面是它的題是真實用戶聊天當中給的題,所以這個題是動態變化的,沒有人可以預測題目分布是什麼樣子的,就沒有辦法針對題目分布去對模型做單一方面的優化,所以它是overall的模型能力的反映。

第二,因為題目是動態隨機,所以它的客觀性可能更加高一些。

第三,它是由用戶來進行打分的結果,使用GPT-4打分,會有些模型的偏好性。用戶的打分和用戶是更接近的,所以這個榜單也會跟實際應用當中用戶的preference更接近,這跟我們做成模因一體的理念是符合的。

Q:有業內專家說過所有的基准測試都是錯的,您怎麼看?現在大模型發布給的測評對比有哪些價值嗎?第二個問題比較,零一萬物後續會推出更大參數的模型嗎?現在一些企業開始做小模型,您認為現在卷參數還有意義嗎?


黃文灝:先回答第一個問題,之前的benchmark的確有一些題目的動態變化性不夠,所以會發生有人說的,比如說定向優化模型某項能力,我覺得不是刷榜,而是把模型某些能力做提升。這些提升在單一能力上有價值,但是比較的時候大家不知道這個模型提升了這方面能力,那個模型提升那方面的能力,所以大家在比較的時候不一定會客觀公正,而LMSYS是提供一個最好的更接近於用戶真實場景的一種評測方式,它的方式也是因為題目動態隨機性不適合大家做優化,所以可以看作一個比較好的標准去衡量模型的能力。

第二個問題我先簡單說一下,由開復老師主要講。我覺得做更大的模型是我們會一直追求,因為我們公司使命是追求AGI,同時讓它變得accessible and beneficial to all human beings(有益於人類且普惠。所以我們覺得我們會繼續去做更大的模型,追求模型的能力同時和應用做更好的銜接。當然我們自己是 believe in scaling law(相信規模定律)的,所以我們在模型變得更大,或者我們用更多的計算資源的時候,我們的模型智能會逐步提升。


李開復:我補充一點,問題是有關超大模型和有些公司做小模型。我們的計劃是從最小到最大的模型都希望能夠做到中國最好,所以我們剛才講了在6B、9B、34B,未來可能有更小的模型發布,它們都是同樣尺寸達到業界最佳,不敢說第一,但是總體來說是第一梯隊或者是最好的一兩名這樣的表現,而且在很多方面,在代碼方面、中文方面、英文方面表現都是非常好。

我們相信就像一周前我講的TC-PMF,永遠是一個蹺蹺板,你要平衡你需要多強的技術,那你付不付得起這個技術所需要的成本。業界有各種不同的應用,從最簡單的客服應用,到游戲,一直到非常難的推理策略、科學發現等等難度,我相信大尺寸的 scaling law,最強大地往 AGI 走的模型,在最難的問題上,大家又願意花錢的領域裡,絕對是有落地場景,而且是最有可能達到AGI。

同時我們也坦誠,有各種比較小的簡單應用的機會。我們的打法是一個都不放過,我們在每一個潛在存在尺寸上發布我們能做到性能最高,而且推理成本最低,這個推理成本也會帶來更好的經濟價錢跟定價給開發者使用。

黃文灝:關於benchmark再補充一點,每個公司都會建自己的評測體系,我們內部也建了自己的評測體系,我們去LMSYS之前在自己的評測集上評測過所有模型,當時我們大概判斷我們的模型能力的確達到世界一流,中國第一這樣的水平。我們自己的評測集和LMSYS最後的結果高度吻合。而且我們的評測集都是真實場景得到的一些數據,是比較公正的。

同時我們在我們的產品中應用我們的模型之後,很多產品的用戶數據都有非常好的一個提升,這個也可以看作模型能力的金標准。
您的點贊是對我們的鼓勵     這條新聞還沒有人評論喔,等著您的高見呢
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0294 秒 and 4 DB Queries in 0.0020 秒