温哥华Lipont Place力邦艺术港:活动场地租赁,拍摄场地租赁!

仅凭一篇博客,他成功入职OpenAI!

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
比起AdamW优化器,Muon在多个任务中,表现非常惊艳。

在CIFAR-10中,它将达到94%准确率的训练时间从3.3缩短至2.6 A100 秒,提升约21%。

针对NanoGPT训练,Muon在FineWeb数据集上,将验证损失达到3.28训练速度提升了1.35倍。




此外,在774M和1.5B参数规模的模型上,Muon依旧保持训练速度优势。

训练一个1.5B参数的Transformer模型达到GPT-2 XL水平,Muon仅需10个8xH100小时,而AdamW需要13.3小时,效率提升约25%。

那么,在AI圈,Muon的影响力有多大?


微软团队1月份论文中,便使用了Muon优化器。




一些机器学习大佬专为此着分析,还有更多研究中拥抱Muon优化器。






点个赞吧!您的鼓励让我们进步     好新闻没人评论怎么行,我来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文

    猜您喜欢

    您可能也喜欢

    当前评论

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *:
    安全校验码 *:
    请在此处输入图片中的数字
    The Captcha image
      (请在此处输入图片中的数字)

    Copyright © 加西网, all rights are reserved.

    加西网为北美中文网传媒集团旗下网站