揭秘DeepSeek:AI人才年薪千万训练成本被低估

日期: 2025-02-03 | 来源: 爱范儿 | 有0人参与评论 | 字体: 小中大
需要说明的是，DeepSeek 的独特之处在于他们率先实现了这种成本和性能水平。

虽然 Mistral 和 Llama 模型也曾在开源模型上做过类似的事情，但 DeepSeek 做到的程度独树一帜。如果到了年底，成本再下降 5 倍，也请不要感到惊讶。

R1 凭什么迅速追上 OpenAI o1大家热议的另一个话题，是 R1 能够达到与 o1 相当的效果，而 o1 仅在 9 月发布。

仅仅几个月时间，DeepSeek 是如何如此迅速地赶上的呢？

问题的关键在于，推理能力形成了一种全新的范式。

推理范式迭代速度更快，且以较少的计算资源即可获得显著收益。正如我们在扩展定律报告中提到的，以往的范式依赖于预训练，而这种方式不仅成本越来越高，且已经难以取得稳健的进步。

新的推理范式，专注于通过合成数据生成和在现有模型上进行后训练中的强化学习来提升推理能力，从而以更低的成本实现更快的进步。

较低的入门门槛加上易于优化，使得 DeepSeek 能够比过去更快地复制 o1 方法。随着各方探索如何在这一新范式下进一步扩展，我们预计不同模型在匹配性能的时间差距将会拉大。

需要注意的是，R1 论文中没有提及所使用的计算资源。这绝非偶然 —— 为了生成用于后训练的合成数据，R1 需要大量的计算资源，更不用说强化学习了。

R1 是一款非常优秀的模型，但它披露的一些基准测试也具有误导性。R1 特意没有提及那些它并不领先的基准测试，虽然在推理性能上 R1 与 o1 不相上下，但在每项指标上它并不都是明显的赢家，在许多情况下甚至不如 o1。

这里我们还没有提到 o3。o3 的能力明显高于 R1 和 o1。实际上，OpenAI 最近分享了 o3 的结果（还提前发布了 o3-mini ），其基准测试的扩展呈垂直趋势。

这似乎再次证明了「深度学习遭遇瓶颈」，但这个瓶颈不同以往。

与 Google 的推理模型不相上下尽管 R1 的炒作热潮不断，但很多人忽略了，一家市值 2.5 万亿美元的美国公司在上个月以更低的价格发布了一款推理模型：Google 的 Gemini Flash 2.0 Thinking。

该模型已经可以使用，并且通过 API 即使拥有更长的上下文长度，其成本仍远低于 R1。

在已公布的基准测试中，Flash 2.0 Thinking 超越了 R1，尽管基准测试并不能说明全部情况。Google 只发布了 3 个基准测试，因此情况不够全面。不过，我们认为 Google 的模型非常稳健，在许多方面可以与 R1 相当，但却未获得太多关注。

这可能是由于 Google 营销策略平平、用户体验较差，但同时 R1 也作为一项来自中国的黑马出现。
- 新闻来源于其它媒体，内容不代表本站立场！

上一页 1 2 345 6 7 8 下一页

在此页中阅读全文
分类：科技信息

猜您喜欢