月之暗面 Kimi 開源 Moonlight

2 月 24 日訊,月之暗面 Kimi 昨日發佈了“Muon 可擴展用於 LLM 訓練”的新技術報告,並宣佈推出“Moonlight”:一個在 Muon 上訓練的 30 億 / 160 億參數混合專家模型(MoE)。使用了 5.7 萬億個 token,在更低的浮點運算次數(FLOPs)下實現了更好的性能,從而提升了帕累託效率邊界。(IT之家)