这匹中国大模型黑马,让扎克伯格破防了

2025-01-17 | 来源: 冰川思享号 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

图/网络

扎克伯格在谈到DeepSeek时，罕见地表示：“他们的技术真的很不错，这个模型非常先进。（在AI大模型领域）中国正在全力冲刺，我们当然该支持美国的公司。实际上，这是一场差距很小的竞争。”

02

早在去年5月，DeepSeek发布DeepSeek-V2模型时，超低的价格就引起了AI大模型降价的血雨腥风。彼时DeepSeek尚未推出面向消费者的应用，大众知名度远没有现在这么高。

直到去年12月26日，DeepSeek-V3推出网页版后一夜爆火，月度访问量迅速突破千万。与大模型一同发布的，还有一篇53页的论文，详细介绍了DeepSeek-V3模型的技术细节，将如何用有限资源进行模型优化的策略全部公之于众。

DeepSeek采用的主要技术总结下来有三点，创新的模型架构、高效的训练技术以及优化资源利用。我认为，其中MLA（多头潜在注意力机制）架构最值得称道。DeepSeek将用户任务分解为多个子任务，由不同的专家模型分别处理，再将各专家模型的结果汇总输出结果。

这就意味着，大模型在接到用户需求时，不用调动全部资源进行处理。提升模型运行效率的同时，显著降低了运行成本，有种“专人专办”的感觉。

如果仔细研究DeepSeek的解决方案，会发现DeepSeek更多是在进行“工程创新”。它虽然没有创造出一套全新的技术，却改进了业内原有的模型训练方式。

图/图虫创意

扎克伯格亲造CEO智能体,Meta变革加剧员工恐慌

空中客车再获中国大单东方航空宣布买101架飞机

闯入美国世界杯的"黑马" 竟被中国男足2:0收拾了

有人认为业内对于DeepSeek的评价有些过高，它只是对原有技术进行了优化。这样的看法显然过度关注技术层面，而忽略了AI行业无限光明前景的背后，是有些阴暗的现实。

过去一年中，全球科技公司几乎都铆足了劲在AI项目上发力，全球AI初创公司如雨后春笋般冒出，“用AI重塑所有行业”的口号喊得震天响。然而，摆在所有企业面前的窘境是，AI商业化路径并没有被完全打通。

对于传统企业而言，如果需要AI大模型为业务赋能，选择开源模型进行微调，定制专属大模型试错成本更低。广大消费者为AI功能付费的意愿也不高，大部分用户都是“白嫖党”，尚且属于培养用户习惯的阶段。

就连作为AI行业的领军企业OpenAI至今都尚未实现盈利，很大一部分原因在于尖端AI模型的训练耗资惊人，运行成本也十分高昂。据测算，仅维持ChatGPT的运营，每天成本就高达70万美元。OpenAI首席执行官山姆·奥特曼则表示，未来的AI模型成本预计将超过10亿美元。

《纽约时报》获得的融资文件显示，OpenAI 2024年预计收入达到37亿美元，但预计亏损也将达到50亿美元，而2026年亏损可能会高达140亿美元，这一估算还不包括给员工的股票激励兑现。

可以说，高度依赖融资的OpenAI在破产的边缘反复摇摆。如果明天投资界厌倦了看不到盈利希望的AI行业，OpenAI仅凭自身的造血能力，恐怕难以为继，其他AI初创企业更是如此。

这样的担忧并非空穴来风，知名数据分析机构 CB Insights 发布的《2024年第三季度全球人工智能投融资报告》显示，2024年第三季度生成式AI领域的投资额环比下降了29%，10亿美元以上的大额融资量环比下降77%。

任何生意的核心都是成本与收入的平衡，

DeepSeek为AI行业提供了一种崭新的思路，既然收入端暂时难以大规模提升，不妨先从成本端发力

。或许DeepSeek在技术上没有多么惊天动地的创新，却让国内AI行业看到了一丝在夹缝中生存的可能性，也为全球AI行业长久存续提供了新范式。