揭秘DeepSeek:AI人才年薪千万训练成本被低估

日期: 2025-02-03 | 来源: 爱范儿 | 有0人参与评论 | 字体: 小中大
这可能是迄今为止海外对 DeepSeek 最全面的一份分析报告，来自知名半导体研究机构 Semianalysis。

从 DeepSeek 让训练成本大幅降低的 MLA 模式，R1 和 o1 等模型的性能对比，人均年薪千万的顶尖人才，还指出目前 DeepSeek 的成本估算是错误的，推测其拥有大约 5 万块Hopper GPU……

关于 DeepSeek目前很多甚嚣尘上的传言，这篇文章依据现有信息给出了更客观的论述。

图灵奖得主杨立昆最近再次发表了关于 DeepSeek 的观点，他指出硅谷某些圈子的通病，是认定别处的创新都是靠作弊得来的。

而科技要快速进步，恰恰需要让更多人才参与并共享创新成果。在 DeepSeek 的开源模型上，我们也看到了这种愿景。

报告原文：

https://semianalysis.com/2025/01/31/deepseek-debates/

APPSO 整理了这篇分析报告中的关键要点：

推测 DeepSeek 大约有5万块 Hopper GPU，在 GPU 上的投资总额超过 5 亿美元。

广为讨论的 600 万美元成本仅指预训练过程中 GPU 的花费，这只是模型总成本的一部分。

DeepSeek 团队目前约 150 人，从北大浙大等中国高校招聘人才，年薪可达千万。

多头潜在注意力（MLA）是 DeepSeek 大幅降低推理成本的关键创新，将每次查询所需的 KV 缓存减少了约 93.3%。

在推理性能上 R1 与 o1 不相上下，而 o3 的能力明显高于 R1 和 o1。

DeepSeek 风暴席卷全球过去一周，DeepSeek 成为了全世界人们唯一热议的话题。

目前，DeepSeek 的日活（据悉超过 1900万）已经远高于 Claude、Perplexity 甚至 Gemini。

然而，对于长期关注 AI 行业的人，这个消息不算新鲜。我们已经讨论 DeepSeek 数月，对这家公司并不陌生，但疯狂的炒作却出乎意料。SemiAnalysis 一直认为 DeepSeek 极具才华，而美国更广泛的公众并不在意。

当世界终于关注到这家公司，其中狂热的舆论并没有完全反映它的真实情况。

我们想强调的是，舆论已经发生了转变。上个月，当 Scaling Laws （扩展定律）被打破时，我们就已揭穿了这个神话；如今，算法改进的速度过快，而这在某种程度上对英伟达和 GPU 不利。

现在大家讨论的是，DeepSeek 效率如此之高，以至于我们不再需要更多的计算资源，而由于模型的变革，出现了巨大的产能过剩。

虽然杰文斯悖论（Jevon?s Paradox）也被过度炒作，但它更接近现实，因为这些模型已经引发了需求，对 H100 和 H200 的定价产生了实质性的影响。

编者注：杰文斯悖论简单来说就是，当某种资源的使用效率提高后，虽然单次使用时消耗更少，但因为成本降低、使用更方便，反而可能让人们用得更多，导致整体消耗量反而上升。

5 万块 Hopper GPU幻方量化是一家中国对冲基金，也是最早在其交易算法中采用 AI 的先行者。他们早早就意识到 AI 在金融以外领域的潜力以及扩展能力的重要性，因此不断增加 GPU 的供应。

经过使用数千个 GPU 集群进行模型实验后，幻方量化在 2021 年，在任何出口限制出台之前，就投资了 10000 个 A100 GPU。
- 新闻来源于其它媒体，内容不代表本站立场！

在此页中阅读全文
分类：科技信息

猜您喜欢