仅凭一篇博客,他成功入职OpenAI!
在CIFAR-10中,它将达到94%准确率的训练时间从3.3缩短至2.6 A100 秒,提升约21%。
针对NanoGPT训练,Muon在FineWeb数据集上,将验证损失达到3.28训练速度提升了1.35倍。
此外,在774M和1.5B参数规模的模型上,Muon依旧保持训练速度优势。
训练一个1.5B参数的Transformer模型达到GPT-2 XL水平,Muon仅需10个8xH100小时,而AdamW需要13.3小时,效率提升约25%。
那么,在AI圈,Muon的影响力有多大?
微软团队1月份论文中,便使用了Muon优化器。
一些机器学习大佬专为此着分析,还有更多研究中拥抱Muon优化器。


分享: |
注: | 在此页阅读全文 |