• 代码论文全开源!月之暗面发布重磅技能论说:模子测验遵守翻倍

  • 发布日期:2025-04-04 05:56    点击次数:192

    代码论文全开源!月之暗面发布重磅技能论说:模子测验遵守翻倍

    月之暗面最新技能论说 —— 《Muon is Scalable for LLM Training》! 推出了一个全新的优化器 Muon,并基于此测验出了 3B/16B 参数的羼杂民众模子 (MoE)——Moonlight。这个 Moonlight 不是平时的模子,它在测验遵守上齐全了200% 倍擢升,况兼一举冲破了现存大语言模子的性能规模

    咱们齐知说念,测验大型语言模子 (LLM) 就像一场“烧钱”大战,谈论资源和时间齐是浩大的挑战。而优化器,就如同这场斗争中的“兵法”,胜利决定了测验的遵守和模子的最终恶果。

    一直以来,AdamW 齐是寰宇测验 LLM 的标配。然则,月之暗面团队此次带来的 Muon 优化器,却展现出了更苍劲的后劲!

    苟简来说,Muon 优化器基于矩阵正交化,这是一种听起来有点高妙的技能。但你不错把它思象成,Muon 在更新模子参数的时候,会让参数矩阵的各个主见齐“雨露均沾”,幸免模子只沿着少数几个“主导主见”学习,从而擢升学习遵守和模子的泛化才能。

    Muon 的两大“神技”: ????

    之前的征询标明,Muon 在小领域模子上推崇出色,但能否扩展到更大领域的模子,一直是个未知数。过程长远征询,征询东说念主员发现了 Muon 扩展的重要诀窍,主要有两点:

    1. 加入权重衰减 (Weight Decay): 就像给模子测验加上了“刹车”,驻扎模子参数过度彭胀,保执测验的踏实性和模子的泛化才能2. 素雅转机参数更新法度: 针对不同情势的参数矩阵,智能转机更新幅度,确保更新的“力度”恰到克己,幸免“用劲过猛”或“力不从心”

    Muon 优化器还自带三大 BUFF 加成:

    • 遵守 BUFF: 对比 AdamW,谈论效憨胜利翻倍• 丝滑 BUFF: 无需繁琐的超参数转机,AdamW 用户不错无缝切换到 Muon• 性能 BUFF: 内存和通信遵守齐大幅擢升,散播式测验更疲扎实践数据话语:Muon 遵守擢升 

    为了考据 Muon 的实力,团队进行了多数的实践,包括大领域的 Scaling Law (扩展定律) 实践。截至令东说念主恐慌:

    • 谈论遵守暴涨: 在谈论量最优的测验条件下,Muon 的谈论遵守是 AdamW 的 2 倍!这意味着,用 Muon 测验模子,不错用一半的谈论资源达到 AdamW 交流的恶果!• 性能更进一竿: 基于 Muon 优化器测验的Moonlight 模子,在MMLU 基准测试 上推崇出色,大幅杰出了同等领域的其他模子,实在作念到了“少用钱,多管事”!• 冲破 Pareto 前沿: Moonlight 模子告捷冲破了 MMLU 性能的 Pareto 前沿,这意味着,在性能和谈论资本之间,Moonlight 找到了更优的均衡点

    著述开首:AI寒武纪,原文标题:《代码论文全开源!月之暗面发布重磅技能论说:模子测验遵守翻倍》

    风险领导及免责条目 市集有风险,投资需严慎。本文不组成个东说念主投资冷落,也未探究到个别用户绝顶的投资谈论、财务情状或需要。用户应试虑本文中的任何主意、不雅点或论断是否顺应其特定情状。据此投资,牵累欢欣。