MMR1: 報酬分散に基づくサンプリングで強化学習を安定化するマルチモーダル推論モデル

LLM-Paper 2025年10月04日

3つの要点
✔️ MMR1は報酬分散を利用したVariance-Aware Samplingで安定した強化学習を実現
✔️ 約160万件のCoTデータと1.5万件のRLデータを公開し、再現性と発展性を高めた
✔️ 数学・論理推論ベンチマークで既存モデルを上回り、効率性と汎用性を示した

MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources
written by Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu
(Submitted on 25 Sep 2025)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

概要

本論文は、大規模マルチモーダル推論モデルの性能向上を目指し、新たな学習戦略「Variance-Aware Sampling（VAS）」を提案しています。

近年、数学や論理を含む複雑な課題に対して、大規模言語モデルやマルチモーダルモデルが進展を遂げてきました。
しかし、強化学習の代表的手法であるGRPO（Group Relative Policy Optimization）は、報酬の分散が低下すると勾配が消失し、最適化信号が弱まり学習が不安定になるという問題を抱えていたとのこと。
また、高品質で大規模な「長い思考過程（chain-of-thought）」データが公開されていないことも、再現性や研究の進展を妨げる要因でした。

そこで本研究では、（1）報酬分散を高めて学習を安定化させるデータ選択法VAS、（2）約160万件の長いCoTデータと約1.5万件のRL用QAペアを含む大規模データセット、（3）複数スケールのマルチモーダル推論モデルの公開、という三つの貢献を示しました。

理論的分析により、報酬分散が勾配更新の下限を保証することを明らかにし、VASがその実践的手法として機能することを証明。
さらに、公開されたコードやモデル群は、研究コミュニティにとって標準的なベースラインを提供するリソースとなっています。

提案手法

提案手法であるVASは、GRPOの学習過程における「勾配消失」を克服するために設計されました。

基本的な発想は、報酬分散が高いサンプルほど学習に有益であり、強い勾配信号を生み出すという点にあります。
そのため、VASでは各サンプルに対して「Variance Promotion Score（VPS）」を算出し、その値に基づいて訓練データを選択。

VPSは二つの要素から構成されます。
一つはOutcome Variance Score（OVS）で、正解と不正解の回答がバランスよく混ざる課題を高く評価。
もう一つはTrajectory Diversity Score（TDS）で、多様な推論経路を生成する課題を優先。
これにより、単調で予測可能なサンプルではなく、モデルにとって情報量の多いサンプルを学習に取り込むことが可能に。

さらに、VASはランダムサンプリングと組み合わせることで、データの網羅性を確保しつつ、報酬分散を促進するように設計されています。
理論的には、VASは報酬分散が勾配の下限を保証する「Variance–Progress定理」に基づき、学習の安定性と効率性を高める仕組みとなっています。

実験

実験では、数学的および論理的推論を中心とする複数のベンチマーク（MathVerse、MathVista、MathVision、LogicVista、ChartQA）が用いられました。
モデルにはQwen2.5-VL系列を基盤とした3Bおよび7Bモデルが採用され、比較対象として汎用モデル（InternVL、LLaVA-OVなど）や推論特化モデル（VL-Cogito、R1-VL、MM-Eurekaなど）が選ばれました。

結果として、MMR1-7Bは平均スコア58.4を記録し、同規模の推論指向モデルを上回る性能を達成。
特にMathVerseやLogicVistaなど複雑な推論課題において顕著な改善が見られ、VASが学習安定性と性能向上の両面に寄与することが示されました。

加えて、3Bモデルも複数の7Bモデルに匹敵する成果を出し、リソース制約下でも高い効率性を発揮。
さらに、アブレーション実験により、Cold-startによる初期化、GRPOによる強化学習、VASによる安定化が相互に補完し合い、最終的な性能を支えていることが明らかになりました。
これにより、提案手法の有効性と汎用性が強く裏付けられています。