| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

新聞資訊

論壇

溫哥華地產

大溫餐館點評

溫哥華汽車

溫哥華教育

黃頁/二手

旅游

加州: 中國的大模型成本僅國外三十分之一,硅谷恐慌


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
而今年年初DeepSeek-R1發布後,硅谷科技界的評價依然很高。亞歷山大·王認為“我們發現,DeepSeek……是表現最好的,或者大致與美國最好的模型相當.這個領域的競爭越來越激烈,而不是越來越少[2]”。


Jim Fan的評價更上一層樓,甚至討論起了DeepSeek“接班”OpenAI的話題。相比依靠閉源構築護城河的OpenAI,他在社交網站上表示“我們生活在這樣一個時間線上,一家非美國公司正在維持 OpenAI 的原始使命——真正開放、前沿的研究,賦予所有人力量。這看似不合邏輯,但最有趣的結果往往最容易發生”。

在基准測試中的得分未必能完全代表大模型的真實能力,科學家們對R1的能力持更為謹慎的態度。目前,科學家們已經開始對R1進行更深入的測試。


德國埃爾蘭根馬克斯·普朗克光學研究所人工智能科學家實驗室負責人馬裡奧·克倫,讓OpenAI o1和DeepSeek-R1兩個競爭模型對3,000個研究想法按照其有趣程度進行排序,並將結果與人類的排序進行了比較。在這個評估標准上,R1的表現略遜於o1。然而,她指出R1在某些量子光學計算任務中表現優於o1。

02 不走尋常路

引起AI圈好奇的,除了DeepSeek-R1性能表現和低成本,還有技術論文中展示的,DeepSeek團隊對於AI訓練方法的新嘗試。

以往的模型在提升推理能力時,通常依賴於把監督微調(SFT)這個環節。在監督微調階段,研究人員會使用大量已標注的數據對預訓練的AI模型進行進一步訓練。這些數據包含了問題及其對應的正確答案,以及如何建立思考步驟的范例。靠著這些模仿人類思維的“例題”和“答案”,大模型得以提升推理能力。




DeepSeek-R1訓練過程中的DeepSeek-R1-Zero路線則直接將強化學習(RL)應用於基礎模型。他們的目標是探索大模型在沒有任何監督數據的情況下,通過純強化學習過程進行自我進化,從而獲得推理能力。

團隊建立了兩條最簡單的獎勵規則。一條是准確性獎勵,對了加分錯了減分。另一條是格式要求,模型要把思考過程寫在和標簽之間,類似於考試中我們必須把答案寫在答題框裡。不靠“例題”,只讓AI這個“學生”以自己的方式學會做推理。


從基准測試的成績看,DeepSeek-R1-Zero 無需任何監督微調數據即可獲得強大的推理能力。在AIME 2024基准測試裡,使用多數投票機制時的DeepSeek-R1-Zero達到86.7%准確率,高過OpenAI o1。

在訓練OpenAI o1這個級別的推理模型這個任務上,DeepSeek-R1是首個直接強化學習證明這一方法有效的模型。

艾倫人工智能研究所(Allen Institute for AI)的研究科學家內森·蘭伯特(Nathan Lambert)在社交媒體上表示,R1的論文“是推理模型研究不確定性中的一個重要轉折點”,因為“到目前為止,推理模型一直是工業研究的一個重要領域,但缺乏一篇具有開創性的論文[5]。”

中山大學集成電路學院助理教授王美琪解釋稱,直接強化學習方法與 DeepSeek 團隊在多版模型迭代中的一系列工程優化技術(如簡化獎懲模型設計等)相結合,有效降低了大模型的訓練成本。直接強化學習避免了大量人工標注數據的工作,而獎懲模型的簡化設計等則減少了對計算資源的需求。

DeepSeek-R1 的成果顯示,大規模運用直接強化學習,而非依賴大模型經典訓練范式(如采用預設思維鏈模版和監督微調)是可行的。這為大模型訓練提供了更高效的思路,有望啟發更多研究人員和工程師沿著這一方向進行復現與探索。DeepSeek 還開源模型並提供了詳細技術報告,也有助於他人快速驗證和拓展該方法。
不錯的新聞,我要點贊     還沒人說話啊,我想來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0359 秒 and 2 DB Queries in 0.0011 秒