-
日期: 2025-02-03 | 来源: 爱范儿 | 有0人参与评论 | 字体: 小 中 大
从 DeepSeek 让训练成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能对比,人均年薪千万的顶尖人才,还指出目前 DeepSeek 的成本估算是错误的,推测其拥有大约 5 万块Hopper GPU……
关于 DeepSeek目前很多甚嚣尘上的传言,这篇文章依据现有信息给出了更客观的论述。
图灵奖得主杨立昆最近再次发表了关于 DeepSeek 的观点,他指出硅谷某些圈子的通病,是认定别处的创新都是靠作弊得来的。
而科技要快速进步,恰恰需要让更多人才参与并共享创新成果。在 DeepSeek 的开源模型上,我们也看到了这种愿景。
报告原文:
https://semianalysis.com/2025/01/31/deepseek-debates/
APPSO 整理了这篇分析报告中的关键要点:
推测 DeepSeek 大约有5万块 Hopper GPU,在 GPU 上的投资总额超过 5 亿美元。
广为讨论的 600 万美元成本仅指预训练过程中 GPU 的花费,这只是模型总成本的一部分。
DeepSeek 团队目前约 150 人,从北大浙大等中国高校招聘人才,年薪可达千万。
多头潜在注意力(MLA) 是 DeepSeek 大幅降低推理成本的关键创新,将每次查询所需的 KV 缓存减少了约 93.3%。
在推理性能上 R1 与 o1 不相上下,而 o3 的能力明显高于 R1 和 o1。
DeepSeek 风暴席卷全球过去一周,DeepSeek 成为了全世界人们唯一热议的话题。
目前,DeepSeek 的日活(据悉超过 1900万)已经远高于 Claude、Perplexity 甚至 Gemini。
然而,对于长期关注 AI 行业的人,这个消息不算新鲜。我们已经讨论 DeepSeek 数月,对这家公司并不陌生,但疯狂的炒作却出乎意料。SemiAnalysis 一直认为 DeepSeek 极具才华,而美国更广泛的公众并不在意。
当世界终于关注到这家公司,其中狂热的舆论并没有完全反映它的真实情况。
我们想强调的是,舆论已经发生了转变。上个月,当 Scaling Laws (扩展定律)被打破时,我们就已揭穿了这个神话;如今,算法改进的速度过快,而这在某种程度上对英伟达和 GPU 不利。
现在大家讨论的是,DeepSeek 效率如此之高,以至于我们不再需要更多的计算资源,而由于模型的变革,出现了巨大的产能过剩。
虽然杰文斯悖论(Jevon?s Paradox)也被过度炒作,但它更接近现实,因为这些模型已经引发了需求,对 H100 和 H200 的定价产生了实质性的影响。
编者注:杰文斯悖论简单来说就是,当某种资源的使用效率提高后,虽然单次使用时消耗更少,但因为成本降低、使用更方便,反而可能让人们用得更多,导致整体消耗量反而上升。
5 万块 Hopper GPU幻方量化是一家中国对冲基金,也是最早在其交易算法中采用 AI 的先行者。他们早早就意识到 AI 在金融以外领域的潜力以及扩展能力的重要性,因此不断增加 GPU 的供应。
经过使用数千个 GPU 集群进行模型实验后,幻方量化在 2021 年,在任何出口限制出台之前,就投资了 10000 个 A100 GPU。- 新闻来源于其它媒体,内容不代表本站立场!
- 问今天几月几号?DeepSeek回答笑翻网络
- DeepSeek走下坡路 传其核心高层悄然出走
- 力邦艺术港 展览活动拍摄场地租赁
- 加国这骗局猖獗 一城市数百人受害
-
- 南边又乱套了!数百万人上街反川普
- 57岁台湾金马奖影帝被捕 深夜盗窃被抓现行
- 加国强力通行证生效 BC这些地免费
- 女子存够$50万提前退休为何变噩梦
- 绝症女童最后一次公费注射 母泪奔
- 大温边上将新开一家宜家 会很特别
-
- 反击没完绝不谈 伊朗拒绝停火协商
- 加拿大的车险,你只管买,可千万别用
- 温哥华资深贷款专家 解决贷款需求
- 他表态愿接党魁?中共权力核心正在变化
- 稀土这么厉害 习为何没早点对川普打出这张牌
- 伊朗又菜又怂背后 中共绝不敢说的秘密
-
- 出事了?习访中亚没带彭 央视剪掉下飞机过程
- 大温男子掉河中失踪 妻子伤心欲绝
- 三人聚餐就是拉帮结派 北京怕什么?
- 希拉里也发对比图,嘲讽特朗普"低能量美式阅兵"
- 伊朗今晚准备了巨大惊喜?许多媒体可能误会了
- 形势严峻,第三次石油危机倒数计时?!
-
目前还没有人发表评论, 大家都在期待您的高见