S1成本仅50美元性能媲美Deepseek-R1

2025-02-06 | 来源: 华尔街见闻 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

在DeepSeek火爆全球之际，一个更低成本的AI推理模型悄然登场...

近日，一项来自斯坦福大学和华盛顿大学等机构的研究成果引起了市场关注，李飞飞等人以不到50美元的云计算费用成功训练出了一个名为s1的AI推理模型。研究成果表明，s1在数学和编码能力测试中与OpenAI的o1和DeepSeek的R1等模型的表现不相上下。

s1论文作者Niklas Muennighoff表示：

“DeepSeek r1令人兴奋，但缺少OpenAI的测试时间扩展图，并且需要大量数据。我们推出了s1，仅使用1K样本和简单的测试时间干预即可重现o1的预览扩展和性能。”

简单高效的训练方法，挑战传统AI研发模式

s1的研究团队表示，s1模型是以谷歌推理模型Gemini2.0 Flash Thinking Experimental为基础模型，通过蒸馏法提炼出来的。

他们采用了一种名为test-time scaling的方法。研究团队构建了一个小型数据集s1K，通过难度、多样性和质量三个标准来筛选，其中包括1000个经过精心挑选的问题以及相应答案，并附上了“推理”过程，仅使用了16台英伟达H100 GPU，耗时26分钟就完成了训练。

英伟达宣布 DeepSeek-R1可在NVIDIA NIM使用

超越DeepSeek-R1!千问3登顶全球最强开源模型

这种方法与传统的大规模强化学习方法（RL）形成鲜明对比，后者的成本通常较高，DeepSeek、OpenAI都采用了这种方法。而s1的研究通过较小的数据集和监督微调（SFT）蒸馏推理模型，大大降低了训练成本并提高了效率。

此外，为了提高答案的准确度，研究团队还运用了一种“预算强制”技术，可以控制测试时间计算，通过强制提前终止模型的思考过程，或在s1推理时多次追加“等待”指令以延长思考，从而优化性能。

研究显示，新模型s1-32B在使用该技术后，性能与测试时的计算资源成正相关。

性能媲美顶级模型，引发行业关注和担忧

根据研究团队的测试结果可知，在竞赛数学问题上，s1-32B的表现较o1-preview高27%（MATH和AIME24）；且该模型在AIME24上的表现几乎与Gemini 2.0 Thinking API相当，显示其蒸馏过程是有效的。

而s1的出现也引发了行业的担忧。此前，OpenAI曾指控DeepSeek不当使用其API数据进行蒸馏。

有分析人士质疑，如果任何人都可以轻易复制和超越现有的顶级模型，那么大型AI公司多年的研发投入和技术积累可能会受到威胁。而且，尽管蒸馏技术在以较低成本复现AI模型方面表现出色，但其对新AI模型性能的提升效果并不显著。