10月15日消息,10月14日,小米和北京大學聯合署名的論文發表于arXiv,曾被曝獲小米集團創始人兼CEO雷軍以千萬年薪招募的DeepSeek“天才少女”羅福莉,出現在了這篇論文的通訊作者之列,但值得注意的是,論文作者中并沒有標注羅福莉屬于小米大模型團隊。

通訊作者中的羅福莉是95后,她本科就讀于北京師范大學計算機專業,碩士畢業于北京大學計算語言學研究所計算語言學專業。隨后羅福莉曾在阿里巴巴達摩院主導開發了多語言預訓練模型VECO,并推動了AliceMind的開源工作,2022年入職DeepSeek,參與了MoE大模型DeepSeek-V2的研發。去年年底,小米被曝以千萬年薪挖角DeepSeek-V2核心開發者之一羅福莉,使其沖上熱搜,但雙方至今都未公開聲明是否正式入職小米。

▲DeepSeek“天才少女”羅福莉(圖源:羅福莉個人公眾號)
這篇論文提出了提升MoE模型強化學習訓練的新方法Rollout Routing Replay(R3)。實驗結果證明,R3的整體性能優于GRPO、TIS這類強化學習領域提升模型性能的優化算法,且引入R3的所有組合方法全過程無崩盤,訓練過程中訓練-推理KL散度等始終較低,在不影響訓練速度的情況下,使得極端token比例減少一個量級。
當下,強化學習(RL)已成為提升大語言模型能力的關鍵方法。然而,在MoE模型中,路由機制往往會引入不穩定性,甚至導致強化學習訓練崩潰,但現有的引入重要性采樣機制等并不能提升訓練穩定性。不同于此前采取諸如丟棄差異較大的數據之類的變通方法,這篇論文的研究人員希望通過解決路由分布也就是R3來根本性解決這個問題。
論文地址:https://arxiv.org/pdf/2510.11370
一、破解強化學習崩潰的關鍵方法,小米團隊提出R3
強化學習已成為大語言模型后期訓練的基石,利用大規模強化學習,大模型更深入、更廣泛推理,獲得解決復雜問題所需的高級能力,但其面臨的關鍵挑戰是如何平衡效率和穩定性。
現代強化學習框架通常使用不同的引擎進行推理和訓練用于部署,但這種架構上的分離可能導致token概率出現分歧,甚至可能導致災難性的強化學習崩潰。然而,現有的改進方法并不能完全解決MoE模型上進行強化學習訓練時出現的強化學習離線策略問題。
研究人員提出的R3,其工作原理是在序列生成期間從推理引擎捕獲路由分布,并將其直接重放到訓練引擎中。這一過程可以縮小訓練和推理之間的差距,其顯著特征是不同引擎生成的邏輯向量的KL散度(量化兩個概率分布之間的差異程度,值越小說明兩個分布越接近)顯著降低,兩個階段之間概率差異顯著的token數量減少了大約一個數量級。
此外,該方法同時適用于在線策略(on-policy)和小批量(mini-batch)式離線策略強化學習(off-policy)場景。
論文提到了研究團隊的三大主要貢獻:
1、系統識別和分析了MoE模型中訓練和推理之間的路由分布差異,強調了它們在訓練不穩定性中的作用;
2、提出Rollout Routing Replay,它重用訓練引擎內部的推理時間路由分布,以協調訓練和推理之間的路由行為;
3、將R3應用于多種RL設置進行MoE強化學習,并表明R3在穩定性和整體性能方面優于GSPO和TIS。
二、可顯著縮小訓練-推理差異,對Agent任務大有裨益
R3的主要思路是在訓練前向傳播過程中重用推理路由掩碼I,同時仍將softmax應用于訓練邏輯以保持梯度流。
這種設計主要有兩個目的:一是對齊訓練和推理,確保訓練重放期間使用的專家與推理期間選擇的專家相匹配,從而消除專家選擇中的不匹配;二是保留梯度數據流,通過僅重放掩碼,梯度仍然可以流回logits而不會干擾計算圖,這有助于有效地優化路由器。
