相信嗎?李開復:中國大模型與美國僅差6個月

2024-05-21 | 來源: AI未來指北 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

所以我覺得後發有後發的優勢，但同時我們特別尊敬美國這些創造性，他們的論文希望他們繼續寫，我們是每一篇都會仔細閱讀，我們跟他們有很多學習的地方。但是比執行力，比做出一個很好的體驗，做比產品，比商業模式，我覺得我們強於美國公司。

Q：現在有很多榜單，比如之前零一萬物引用的斯坦福的Alpaca Eval，現在又有大模型競技場，哪些評測會比較客觀呢？

李開復：我覺得這兩個都是客觀公正的，Alpaca Eval是斯坦福大學用GPT4評測的，今天的LMSYS是真的幾萬個人評估一個模型，嚴格要我挑哪一個更可信的話，雖然我們在Alpaca排名更高，但是我覺得LMSYS是更可信的。

黃文灝：很多benchmark，包括我們之前大家會比MMLU、GSM8K這些，之前benchmark的題都是死的，它是有一個確定的評測集，當題目已經完全確定以後，大家可以在上面針對題目做一些合成數據，使模型在某一些方面能力變得更高。

而LMSYS它有幾方面比較好，一方面是它的題是真實用戶聊天當中給的題，所以這個題是動態變化的，沒有人可以預測題目分布是什麼樣子的，就沒有辦法針對題目分布去對模型做單一方面的優化，所以它是overall的模型能力的反映。

第二，因為題目是動態隨機，所以它的客觀性可能更加高一些。

第三，它是由用戶來進行打分的結果，使用GPT-4打分，會有些模型的偏好性。用戶的打分和用戶是更接近的，所以這個榜單也會跟實際應用當中用戶的preference更接近，這跟我們做成模因一體的理念是符合的。

Q：有業內專家說過所有的基准測試都是錯的，您怎麼看？現在大模型發布給的測評對比有哪些價值嗎？第二個問題比較，零一萬物後續會推出更大參數的模型嗎？現在一些企業開始做小模型，您認為現在卷參數還有意義嗎？

受曹德旺邀請,李開復加入福建福耀科技大學!

李開復最新預測中國大模型終局(圖

李開復:AI時代會讓每個App都比人類更聰明

黃文灝：先回答第一個問題，之前的benchmark的確有一些題目的動態變化性不夠，所以會發生有人說的，比如說定向優化模型某項能力，我覺得不是刷榜，而是把模型某些能力做提升。這些提升在單一能力上有價值，但是比較的時候大家不知道這個模型提升了這方面能力，那個模型提升那方面的能力，所以大家在比較的時候不一定會客觀公正，而LMSYS是提供一個最好的更接近於用戶真實場景的一種評測方式，它的方式也是因為題目動態隨機性不適合大家做優化，所以可以看作一個比較好的標准去衡量模型的能力。

第二個問題我先簡單說一下，由開復老師主要講。我覺得做更大的模型是我們會一直追求，因為我們公司使命是追求AGI，同時讓它變得accessible and beneficial to all human beings（有益於人類且普惠。所以我們覺得我們會繼續去做更大的模型，追求模型的能力同時和應用做更好的銜接。當然我們自己是 believe in scaling law（相信規模定律）的，所以我們在模型變得更大，或者我們用更多的計算資源的時候，我們的模型智能會逐步提升。

李開復：我補充一點，問題是有關超大模型和有些公司做小模型。我們的計劃是從最小到最大的模型都希望能夠做到中國最好，所以我們剛才講了在6B、9B、34B，未來可能有更小的模型發布，它們都是同樣尺寸達到業界最佳，不敢說第一，但是總體來說是第一梯隊或者是最好的一兩名這樣的表現，而且在很多方面，在代碼方面、中文方面、英文方面表現都是非常好。

我們相信就像一周前我講的TC-PMF，永遠是一個蹺蹺板，你要平衡你需要多強的技術，那你付不付得起這個技術所需要的成本。業界有各種不同的應用，從最簡單的客服應用，到游戲，一直到非常難的推理策略、科學發現等等難度，我相信大尺寸的 scaling law，最強大地往 AGI 走的模型，在最難的問題上，大家又願意花錢的領域裡，絕對是有落地場景，而且是最有可能達到AGI。

同時我們也坦誠，有各種比較小的簡單應用的機會。我們的打法是一個都不放過，我們在每一個潛在存在尺寸上發布我們能做到性能最高，而且推理成本最低，這個推理成本也會帶來更好的經濟價錢跟定價給開發者使用。

黃文灝：關於benchmark再補充一點，每個公司都會建自己的評測體系，我們內部也建了自己的評測體系，我們去LMSYS之前在自己的評測集上評測過所有模型，當時我們大概判斷我們的模型能力的確達到世界一流，中國第一這樣的水平。我們自己的評測集和LMSYS最後的結果高度吻合。而且我們的評測集都是真實場景得到的一些數據，是比較公正的。

同時我們在我們的產品中應用我們的模型之後，很多產品的用戶數據都有非常好的一個提升，這個也可以看作模型能力的金標准。