纽约新闻: 纽约时报:DeepSeek是如何把价格"打下来"的

2025-02-13 | 来源: 纽约时报 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

深度求索使用了一些技术手段，大大降低了构建系统的成本。

上个月，一家名为“深度求索”(DeepSeek)的中国初创公司表示，它用比许多专家认为的最低限度要少得多的芯片，打造出世界上最强大的人工智能系统之一，随后美国金融市场出现暴跌。

人工智能公司通常使用装有1.6万枚或更多专用芯片的超级计算机来训练聊天机器人。但深度求索表示，该公司只用了大约2000枚芯片。

正如深度求索工程师在圣诞节甫一过后发表的一篇研究论文中详细说明的那样，这家初创公司使用了一些技术手段，显着降低了系统构建成本。它的工程师只需要约600万美元的纯算力，大约是Meta在构建其最新人工智能技术时所花费的十分之一。

深度求索到底做了什么？这里是一些介绍。

AI技术是如何构建的？

领先的人工智能技术基于科学家所说的神经网络，即通过分析大量数据来学习技能的数学系统。

最强大的系统需要花费数月时间分析互联网上几乎所有的英文文本，以及许多图像、声音和其他多媒体内容。这需要庞大的运算能力。

大约15年前，人工智能的研究者意识到，一种被称为图形处理单元(GPU)的专用计算机芯片是进行这种数据分析的有效方式。像硅谷芯片制造商英伟达这样的公司最初设计这些芯片是为了在电脑游戏中渲染图形。但GPU也擅长运行推动神经网络的数学运算。

随着各家公司将更多的GPU集成到计算机数据中心，它们的人工智能系统可以分析更多的数据。

但最先进的GPU每块售价在4万美元上下，而且需要大量的电力。在芯片之间传输数据比运行芯片本身更耗电。

纽约时报:中国称已与美国确认贸易框架细节

马姆达尼有望当选市长的背后:纽约住房危机

纽约市长初选,33岁的他会是民主党的救星吗?

深度求索是如何把成本降下来的？

它做了很多工作。其中最值得注意的是，它采用了一种所谓的“混合专家”法。

公司通常会创建一个单一的神经网络，学习互联网上所有数据的所有模式。这样做的成本很高，因为它需要大量的数据在GPU芯片之间传输。

如果一枚芯片正在学习如何写一首诗，而另一枚芯片正在学习如何编写计算机程序，它们还是需要相互交流，以防诗歌和编程之间出现某种重叠。

研究人员尝试通过混合专家法来解决这个问题，他们将系统拆分成许多神经网络：一个用于诗歌，一个用于计算机编程，一个用于生物学，一个用于物理学，等等。这样较小的专家系统可能多达100个。每个专家都可以专注在特定领域。

许多公司在尝试这种方法时并不顺利，但深度求索能够很好地做到这一点。它的诀窍是将那些较小的“专家”系统与一个“通才”系统配对。

专家系统仍然需要相互交换一些信息，而通才系统可以帮助协调专家系统之间的互动。通才系统对每个主题都有不错的理解，但比较粗略。

这有点像一个主编负责一个全是专业记者的新闻编辑室。

这样做的效率更高吗？

高很多。但深度求索做的不仅仅是这些。它还掌握了一个涉及小数的简单技巧，只要你还记得小学数学，就能理解。

这里涉及数学？

还记得你的数学老师讲过的π吗？圆周率，也就是π，是一个无限数字：3.14159265358979……