-
日期: 2025-02-03 | 来源: 爱范儿 | 有0人参与评论 | 字体: 小 中 大
我们认为,他们是当今唯一最优秀的「开源权重」实验室,超越了 Meta 的 Llama 项目、Mistral 以及其他竞争者。
DeepSeek 的极低成本被误读了DeepSeek 的价格与效率引发了硅谷科技圈地震的关键。
然而,关于 DeepSeek V3 的训练成本为 600 万美元这个广为流传的数字,其实是片面的。这相当于只关注产品物料清单中的某一部分,并将其视为全部成本。预训练成本仅仅是总成本中很小的一部分。
我们认为,预训练所支出的成本,远远不能代表模型所花费的总成本。
我们相信 DeepSeek 在硬件上的支出远超过 5 亿美元。他们为了开发新的架构创新,在模型开发过程中,花费了大量资金用于测试新思路、新架构和消融实验。
多头潜在注意力(Multi-Head Latent Attention) —— DeepSeek 的一项关键创新,耗时数月开发,花费了整个团队的大量人力和 GPU 计算时间。
论文中提到的 600 万美元成本仅指预训练过程中 GPU 的花费,这只是模型总成本的一部分。研发费用以及硬件本身的总体拥有成本等重要部分并未包含在内。
作为参考,Claude 3.5 Sonnet 的训练成本达数千万美元,如果那就是 Anthropic 的全部成本,那么他们就没必要从 Google 融资数十亿、从亚马逊融资数十亿美元。因为这是他们进行实验、提出新架构、收集和清洗数据、支付员工工资的必要成本。
那么,DeepSeek 是如何获得如此大规模的集群的呢?出口管制的滞后是关键,我们会在下文将详细讨论。
V3 让性能差距缩小的秘诀毫无疑问,V3 是一款令人印象深刻的模型,但值得强调的是,它的「令人印象深刻」是相对于什么而言。
许多人将 V3 与 GPT-4o 进行比较,并强调 V3 在性能上超越了 4o,但 GPT-4o 是在 2024 年 5 月发布的。以当下 AI 的发展速度,算法改进方面那个时候和现在已是天壤之别。此外,我们并不惊讶在经过一定时间后,用更少的计算资源就能实现相当或更强的能力。
推理成本大幅下降正是 AI 改进的标志。
举个例子,一些可以在笔记本电脑上运行的小模型,其性能可与需要超级计算机训练,以及需要大量 GPU 推理的 GPT-3 相媲美。换句话说,算法改进使得用更少的计算资源即可训练和推理具备相同性能的模型,而这种模式在业内以及出现了多次。
这一次世界终于注意到了,是因为它来自中国的一家实验室,但小模型性能提升并不是什么新鲜事。
目前行业的趋势是,AI 实验室在投入的绝对资金上不断增加,以获取更高的智能水平。
据估算,算法效率每年进步 4 倍,即每过一年,用于达到相同性能的计算资源减少 4 倍。
Anthropic 的 CEO Dario 认为,算法进步甚至会更快,可以实现 10 倍的提升。
就 GPT-3 质量的推理价格而言,成本已经下降了 1200 倍。
在研究 GPT-4 的成本时,我们也看到了类似的下降趋势,尽管处于曲线的较早阶段。时间上的成本差异降低可以解释为不再像上图那样保持性能不变。
在这种情况下,我们看到算法改进和优化使得成本降低 10 倍,同时性能提升 10 倍。- 新闻来源于其它媒体,内容不代表本站立场!
- 问今天几月几号?DeepSeek回答笑翻网络
- DeepSeek走下坡路 传其核心高层悄然出走
- 离婚不到半年的黄圣依喊话初恋 终究要重蹈覆辙?
- Canadian Online Casinos: Safe & Trusted Guide
-
- 细思极恐!外媒曝凯特王妃病情急转直下
- 医生警告:这五种组合症状立即就医
- 温哥华贷款经纪 解决各类疑难贷款
- 大温经纪已被判刑 又因前妻被罚款
- NOAA预报:加拿大最强烈极光就在今晚
- 加元延续本周跌势 预测再降息两次
-
- 他表态愿接党魁?中共权力核心正在变化
- 加国房市要火?五月数据有积极信号
- 巴铁表态:若以色列核打伊朗 巴不会替伊朗报复
- 大陆热帖:大战已经开始,下周非常关键...
- 贸易战后美国葡萄酒出口陷入困境
- 俄称朝鲜决定向俄罗斯追加派兵6000人,中方回应
-
- 金灿荣:中国网民嘲笑伊朗"又怂又菜"?!
- 应对伊朗危机 川普依赖低调四人组 排除她和他
- 以色列空袭德黑兰Day6 防长:摧毁伊朗"威权象征"
- 温哥华贷款经纪 解决各类疑难贷款
- 商家遭遇集体退货,校方介入后学生付款道歉
- 中共禁酒令层层加码 部分政府部门每晚全员酒测
-
目前还没有人发表评论, 大家都在期待您的高见