-
日期: 2025-02-03 | 来源: 爱范儿 | 有0人参与评论 | 字体: 小 中 大
从 DeepSeek 让训练成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能对比,人均年薪千万的顶尖人才,还指出目前 DeepSeek 的成本估算是错误的,推测其拥有大约 5 万块Hopper GPU……
关于 DeepSeek目前很多甚嚣尘上的传言,这篇文章依据现有信息给出了更客观的论述。
图灵奖得主杨立昆最近再次发表了关于 DeepSeek 的观点,他指出硅谷某些圈子的通病,是认定别处的创新都是靠作弊得来的。
而科技要快速进步,恰恰需要让更多人才参与并共享创新成果。在 DeepSeek 的开源模型上,我们也看到了这种愿景。
报告原文:
https://semianalysis.com/2025/01/31/deepseek-debates/
APPSO 整理了这篇分析报告中的关键要点:
推测 DeepSeek 大约有5万块 Hopper GPU,在 GPU 上的投资总额超过 5 亿美元。
广为讨论的 600 万美元成本仅指预训练过程中 GPU 的花费,这只是模型总成本的一部分。
DeepSeek 团队目前约 150 人,从北大浙大等中国高校招聘人才,年薪可达千万。
多头潜在注意力(MLA) 是 DeepSeek 大幅降低推理成本的关键创新,将每次查询所需的 KV 缓存减少了约 93.3%。
在推理性能上 R1 与 o1 不相上下,而 o3 的能力明显高于 R1 和 o1。
DeepSeek 风暴席卷全球过去一周,DeepSeek 成为了全世界人们唯一热议的话题。
目前,DeepSeek 的日活(据悉超过 1900万)已经远高于 Claude、Perplexity 甚至 Gemini。
然而,对于长期关注 AI 行业的人,这个消息不算新鲜。我们已经讨论 DeepSeek 数月,对这家公司并不陌生,但疯狂的炒作却出乎意料。SemiAnalysis 一直认为 DeepSeek 极具才华,而美国更广泛的公众并不在意。
当世界终于关注到这家公司,其中狂热的舆论并没有完全反映它的真实情况。
我们想强调的是,舆论已经发生了转变。上个月,当 Scaling Laws (扩展定律)被打破时,我们就已揭穿了这个神话;如今,算法改进的速度过快,而这在某种程度上对英伟达和 GPU 不利。
现在大家讨论的是,DeepSeek 效率如此之高,以至于我们不再需要更多的计算资源,而由于模型的变革,出现了巨大的产能过剩。
虽然杰文斯悖论(Jevon?s Paradox)也被过度炒作,但它更接近现实,因为这些模型已经引发了需求,对 H100 和 H200 的定价产生了实质性的影响。
编者注:杰文斯悖论简单来说就是,当某种资源的使用效率提高后,虽然单次使用时消耗更少,但因为成本降低、使用更方便,反而可能让人们用得更多,导致整体消耗量反而上升。
5 万块 Hopper GPU幻方量化是一家中国对冲基金,也是最早在其交易算法中采用 AI 的先行者。他们早早就意识到 AI 在金融以外领域的潜力以及扩展能力的重要性,因此不断增加 GPU 的供应。
经过使用数千个 GPU 集群进行模型实验后,幻方量化在 2021 年,在任何出口限制出台之前,就投资了 10000 个 A100 GPU。- 新闻来源于其它媒体,内容不代表本站立场!
- 问今天几月几号?DeepSeek回答笑翻网络
- DeepSeek走下坡路 传其核心高层悄然出走
- 6月8日丨2025归心谷全球创新创业大赛北美西部赛区温哥华站活动蓄势待发
- 把这个带入美国?中国女博士被控罪
-
- 加拿大牛排价格涨3成 烧烤吃不起
- 从温去加东这城的新航班只需$145
- 冯小刚直言:她太能装了,永远红不了
- 悲剧!加国母子住宅游泳池溺水身亡
- 劲爆:8元老2现常委1军头反习大会说了啥
- 温哥华会计事务所 收费低 服务好
-
- 习接受十一世班禅拜见 办公地点再惹疑云?
- 温哥华地产经纪 经验丰富诚信可靠
- 确实打到痛点!美方愿以这东西换中国稀土出口
- 照看幼儿溺毙 高院宣布BC女子无罪
- 加国超市巨头全面下架这款热销咖啡品牌
- 加州暴乱升级!川普部署79步兵旅
-
- 太惨了!博士就业率0% 硕士就业率26.98%
- ICBC这项最新保险里程折扣 必知
- 中国封锁QQ改名功能 群组内敏感发言连群主也受罚
- BC省这高速惊现天坑 北行路段关闭
- 一周内两名中共副国级高官病亡(图
- 美国小镇1天狂震35次 专家示警
-
目前还没有人发表评论, 大家都在期待您的高见