這幾天,全球人工智能領域傳出了一個“爆炸性”新聞——中國國產人工智能大模型DeepSeek(深度求索)發布了最新的DeepSeek-R1版本,它最大的特點就是,在美國政府不斷加大對中國人工智能領域“卡脖子”力度的背景下,這家公司基於英偉達公司不太先進的人工智能顯卡,僅用國外同類產品幾十分之一的成本,就創造了一個在很多關鍵能力方面堪比美國同類產品OpenAI-o1的大模型。
美國《自然》雜志、麻省理工學院技術評論,甚至是《紐約時報》、《華盛頓郵報》、CNBC電視台和英國《金融時報》等美西方主流媒體,都報道了這一驚人的消息。它們驚呼,美國對中國人工智能領域的限制根本無法阻止中國在這一領域取得進步。
很多人都對DeepSeek及其創始人很感興趣,但是,網上關於這方面的信息非常少。有媒體報道說,DeepSeek的創始人是梁文峰,是中國頭部量化私募幻方量化的創始人。2025年1月20日下午,中共中央政治局常委、國務院總理李強主持召開專家、企業家和教科文衛體等領域代表座談會,聽取對《政府工作報告(征求意見稿)》的意見建議。梁文峰當時也參加了這一會議。
DeepSeek-R1最牛的地方在於,它的性能完全媲美美國最新的人工智能大模型,但是,它的訓練成本極低。它只用了1024張英偉達H800顯卡,花費只有560萬美元。作為類比,OpenAI的ChatGPT-o1使用了至少一萬張更為先進的英偉達H100顯卡,其成本大約為1億美元。
據《金融時報》報道,DeepSeek團隊的成員全部畢業於中國國內的高校,包括清華、北大和北航,沒有一個有海外留學的經歷。整個團隊氛圍很像是大學校園裡面的實驗室。梁文峰為團隊成員提供了最頂級的薪酬待遇。
DeepSeek-R1在發布時,同步公布了相關的論文,而且宣布該模型開源。有國外網友說,它的發布,直接讓臉書(Meta)公司內部的人工智能大模型團隊陷入恐慌,並且開始復制和使用DeepSeek-R1中可用的部分。
DeepSeek-R1的發布,產生了兩個非常重要的後果:第一,DeepSeek用極低的成本訓練出了性能先進的大模型,這直接顛覆了美國大模型公司動輒花費幾千萬美元甚至幾十億美元購買幾萬張英偉達最新顯卡來訓練大模型的做法,這甚至可能戳破美國目前的人工智能泡沫;第二,美國不斷對中國人工智能領域“卡脖子”,這反而刺激了中國研究人員的創新意願和能力,讓他們可以用更少的資源去開發出性能同樣優秀的大模型。
2022年11月ChatGPT問世的時候,國內很多人人雲亦雲,一方面跟著別人的節奏去吹捧ChatGPT有多厲害,另一方面又哀歎中國在人工智能領域被美國甩得越來越遠,甚至一些人又開始了習慣性反思——“中國為什麼沒有原創性創新?”“中國的教育到底出了什麼問題?”我當時就對這些觀點很不以為然。兩年多過去了,在生成式人工智能領域,中美已經遠遠把其他國家甩在了身後。更重要的是,盡管美國不斷加大對中國“卡脖子”的力度,中國在生成式人工智能方面依然牢牢咬住了美國,甚至還出現了DeepSeek-R1反超美國同類產品的情況。
我可以斷言,美國不可能在人工智能領域把中國甩在身後。關於人工智能發展最重要的三大因素——算法、算力和數據,中國本來就只在算力方面落後,主要原因是美國限制台積電為華為代工人工智能芯片,並限制中國購買最新的英偉達顯卡。在數據方面,中國擁有超過11億的互聯網用戶,而且打車、外賣、移動支付、人臉識別等各種互聯網應用的滲透率遠超美國,因此,中國在數據方面從來都是占優的。而DeepSeek-R1模型的出現,甚至證明中國在算法上面也不一定落後於美國。而且,如果算法足夠優秀,大模型對算力的依賴也會降低。更何況,華為的人工智能芯片正在快速追趕。接下來三五年,中國完全有可能在算法、算力和數據方面全面趕超美國。
美國在人工智能領域最大的問題是缺乏強大的制造業支撐,也缺乏豐富的應用場景。人工智能未來一定會像水、電和網絡連接一樣,成為一種基礎設施,它們本身非常重要,但是,更重要的是,各國在這些基礎設施之上可以創造出什麼新產品和新服務、發展出什麼新產業、創造出什麼新的高價值就業崗位。在生成式人工智能領域,美國目前以對話為主,它作為工具確實可以大大提高我們的工作效率,但是,它的相對重要性也不一定比Windows、Office幾十年前出現時更大。現在的年輕人可能不理解Windows、Office出現的重要意義,實際上,在Window、Office出現之前,現在看起來非常簡單的排版、印刷和制作幻燈片等工作,其實都是非常費時費力的。中國正在把人工智能運用在自動駕駛、機器人、無人港口、無人礦產等各個制造業領域,甚至運用在機器狗、機器狼、殲20戰斗機等軍事領域,人工智能在中國所能產生的經濟、軍事和社會價值,肯定要大於美國。這就是我們的信心和底氣之所在。