-
日期: 2025-02-07 | 来源: 你们的中产先生 | 有0人参与评论 | 字体: 小 中 大
今天,AI行业突然传出一个爆论:
斯坦福用50美元就跑出了媲美DeepSeek的大模型。
我一开始是有点不相信的,之前即便是DeepSeek用600万美元训练大模型,都被认为是不可能,50美元,怎么可能?
但是后来我发现居然是真的。
主要找到两个信息:
1、跑出这个模型的人是李飞飞
李飞飞是业界公认的国内最顶尖的AI人员,号称AI教母,她16岁才去的美国,甚至表示以后得了诺贝尔奖的话要以中国人的身份领奖,有她做背书,可信度大大提升。
2、我找到了这个大模型论文原文
发在论文预印本网站arxiv上的(https://arxiv.org/html/2501.19393v1),那就更不可能有假了。
但我还是觉得震惊。
机翻了一下论文,终于了解了一个大概。
这个模型叫S1,是怎么训练成功的呢?
先说结论:
S1是用知识蒸馏的方式通过低成本训练出了推理能力。
再详细来说:
S1本身是有一个大模型,名字就不说了,这个大模型的推理能力不太行,李飞飞团队是怎么做的呢?
蒸馏了1000条谷歌Gemini 2.0的数据,然后用16块H100 GPU、26分钟就训练出了推理能力。
当然,这个50美元只是云计算的费用,不包括购置显卡的硬件费用,因为硬件不是一次性使用,26分钟的使用摊薄费用也没必要。
接下来,由这个具备了推理能力的S1对原来的大模型进行监督微调,就这样之前的大模型瞬间有了灵魂脱胎换骨,直接可以媲美DeepSeek甚至是OpenAI。
我的理解就是:
推理能力是核心,一旦训练出来就一通百通。
这个研究其实跑出了一个新方向:
只要蒸馏的数据质量足够高,很低的成本就可以训练出高质量的推理能力,这简直把AI的天给翻了。
算力还是王道吗?知识蒸馏才是大法好啊。
现在我有点相信,DeepSeek可能真的只花了600万美元就训练出这么厉害的模型了。
这简直是开创了AI新时代。
以后小模型训练更方便了,甚至每个人都能训练自己的小模型了,信息平权的时代这么快就到了?
OpenAI现在堵知识蒸馏的口子还来得及吗?要不然干脆放开付费调用吧。
笑。
就这样。- 新闻来源于其它媒体,内容不代表本站立场!
- "百亿哪吒"横空出世,为中国电影树立新的里程碑
- 研究:每周3勺这米增加脑损癌风险
- 邻居狗吠太吵 投诉2年无果 他放出2条…
- 短租房冲上头条 加国屋主为牌拼了
-
- 为与美国对抗,中国打造了怎样的战略堡垒?
- 温哥华牙医 采用先进技术最新设备
- 住房危机 大温超过2千套公寓空置
- 胡锦涛罕见露面 传政治局召开"废习会"
- 离婚传闻甚嚣尘上,刘诗诗终不再顾忌所谓的体面
- 交27万元这费用 大温公寓业主吓醒
-
- 大温公交客流量暴涨 竟超过了大多
- 纳奈莫一游 美国护士想举家搬到BC
- 向习要护照 贺建奎手持美国绿卡公开喊话
- 大温附近男子被狗咬伤后被弃路边
- 刷屏了!巨大的双彩虹横跨大温哥华
- 卢比奥表态:美国不会向"这些人"发放签证
-
- 20年来加国暑期就业从未如此糟糕
- 温哥华牙医 采用先进技术最新设备
- 罢工能避免吗?加国邮政提供新报价
- 印度控中国向巴提供卫星支援 曝北京反应
- 罕见使用"清除"一词,美对中发出强硬信号
- 真要"弃"台?卢比欧:台自卫能力成吓阻关键
-
目前还没有人发表评论, 大家都在期待您的高见