揭秘DeepSeek:AI人才年薪千万训练成本被低估

日期: 2025-02-03 | 来源: 爱范儿 | 有0人参与评论 | 字体: 小中大
我们认为，他们是当今唯一最优秀的「开源权重」实验室，超越了 Meta 的 Llama 项目、Mistral 以及其他竞争者。

DeepSeek 的极低成本被误读了DeepSeek 的价格与效率引发了硅谷科技圈地震的关键。

然而，关于 DeepSeek V3 的训练成本为 600 万美元这个广为流传的数字，其实是片面的。这相当于只关注产品物料清单中的某一部分，并将其视为全部成本。预训练成本仅仅是总成本中很小的一部分。

我们认为，预训练所支出的成本，远远不能代表模型所花费的总成本。

我们相信 DeepSeek 在硬件上的支出远超过 5 亿美元。他们为了开发新的架构创新，在模型开发过程中，花费了大量资金用于测试新思路、新架构和消融实验。

多头潜在注意力（Multi-Head Latent Attention） —— DeepSeek 的一项关键创新，耗时数月开发，花费了整个团队的大量人力和 GPU 计算时间。

论文中提到的 600 万美元成本仅指预训练过程中 GPU 的花费，这只是模型总成本的一部分。研发费用以及硬件本身的总体拥有成本等重要部分并未包含在内。

作为参考，Claude 3.5 Sonnet 的训练成本达数千万美元，如果那就是 Anthropic 的全部成本，那么他们就没必要从 Google 融资数十亿、从亚马逊融资数十亿美元。因为这是他们进行实验、提出新架构、收集和清洗数据、支付员工工资的必要成本。

那么，DeepSeek 是如何获得如此大规模的集群的呢？出口管制的滞后是关键，我们会在下文将详细讨论。

V3 让性能差距缩小的秘诀毫无疑问，V3 是一款令人印象深刻的模型，但值得强调的是，它的「令人印象深刻」是相对于什么而言。

许多人将 V3 与 GPT-4o 进行比较，并强调 V3 在性能上超越了 4o，但 GPT-4o 是在 2024 年 5 月发布的。以当下 AI 的发展速度，算法改进方面那个时候和现在已是天壤之别。此外，我们并不惊讶在经过一定时间后，用更少的计算资源就能实现相当或更强的能力。

推理成本大幅下降正是 AI 改进的标志。

举个例子，一些可以在笔记本电脑上运行的小模型，其性能可与需要超级计算机训练，以及需要大量 GPU 推理的 GPT-3 相媲美。换句话说，算法改进使得用更少的计算资源即可训练和推理具备相同性能的模型，而这种模式在业内以及出现了多次。

这一次世界终于注意到了，是因为它来自中国的一家实验室，但小模型性能提升并不是什么新鲜事。

目前行业的趋势是，AI 实验室在投入的绝对资金上不断增加，以获取更高的智能水平。

据估算，算法效率每年进步 4 倍，即每过一年，用于达到相同性能的计算资源减少 4 倍。

Anthropic 的 CEO Dario 认为，算法进步甚至会更快，可以实现 10 倍的提升。

就 GPT-3 质量的推理价格而言，成本已经下降了 1200 倍。

在研究 GPT-4 的成本时，我们也看到了类似的下降趋势，尽管处于曲线的较早阶段。时间上的成本差异降低可以解释为不再像上图那样保持性能不变。

在这种情况下，我们看到算法改进和优化使得成本降低 10 倍，同时性能提升 10 倍。
- 新闻来源于其它媒体，内容不代表本站立场！

上一页 1 234 5 6 ...8 下一页

在此页中阅读全文
分类：科技信息

猜您喜欢