
VCRL: 報酬分散で学習難易度を制御するLLM強化学習の新アプローチ
3つの要点
✔️ VCRLは、報酬分散を用いてサンプルの難易度を動的に調整する強化学習手法
✔️ 高分散サンプルを重点学習し、メモリバンクで再利用することで効率と安定性を高める
✔️ 数学推論ベンチマークで既存手法を一貫して上回り、難問への適応力も向上
VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
written by Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang
(Submitted on 24 Sep 2025)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Computation and Language (cs.CL)
概要
本論文は、LLMの数学的推論能力を高めるために、新たな強化学習手法「VCRL(Variance-based Curriculum Reinforcement Learning)」を提案しています。
従来の強化学習手法、例えばGRPOやDAPO、GSPOといったロールアウト型のアプローチは、多様なサンプルを用いた学習に強みを持つ一方で、サンプルの難易度をモデルの学習段階に応じて調整する仕組みを欠いていました。
人間の学習が「易しい問題から難しい問題へ」と進むカリキュラム学習の流れを考慮していない点が課題であったのです。
VCRLは、この問題を「報酬分散」という観点から解決します。すなわち、ロールアウト結果の報酬分散がサンプル難易度を反映しているという着想に基づき、分散の大きいサンプルを重点的に学習対象として選択します。
また、Replay Learningを導入することで高価値なサンプルをメモリバンクに蓄積し、効率的かつ安定的な訓練を実現しました。
実験では、AIMEやMATH500、OlympiadBenchなど五つの数学的推論ベンチマークを用いて評価が行われ、既存手法を一貫して上回る結果が得られています。
提案手法
提案手法であるVCRLは、二つの要素から成り立っています。
第一に「分散に基づく動的サンプリング(Variance-based Dynamic Sampling)」です。
各サンプルに対し複数のロールアウトを生成し、それらの報酬の分散を計算。
簡単すぎるサンプルでは全ての報酬が1に近く、逆に難しすぎるサンプルでは全て0に近くなるため分散は低下。
一方、正答と誤答が半々に分かれるような中程度の難易度のサンプルでは分散が最大化します。
この「高分散サンプル」が学習に最も有効であると考え、訓練に優先的に取り込む仕組みを設けました。
第二に「Replay Learning」の導入です。
これは、価値の高いサンプルをメモリバンクに保持し、必要に応じて再利用することで訓練の安定性を高めるものです。
具体的には、分散値が閾値を下回ったサンプルをバッチから除外し、その代わりにメモリバンクから高価値サンプルを補充するとのこと。
このときメモリバンクの更新にはモメンタムを用い、最新性と多様性を維持します。
これら二つの仕組みによって、VCRLはモデルの学習能力とサンプルの難易度を動的に適合させ、効率的かつ安定的な強化学習を実現。
実験
実験は、数学的推論タスクに焦点を当て、五つのベンチマーク(AIME-2024、AIME-2025、MATH500、OlympiadBench、AMC23)を用いて実施。
モデルにはQwen3-4B-BaseとQwen3-8B-Baseが採用され、比較対象としてGRPO、DAPO、GSPOといった既存の強化学習手法が用いられました。
訓練には17,000件の数学問題データセット(DAPO-Math-17K)が利用され、各バッチ128件、各サンプルにつき16ロールアウトを生成し、500ステップの学習が行われました。
結果として、VCRLはすべてのベンチマークおよび両モデルにおいて最良の性能を示したとのこと。
特に難易度の高いAIME-2024やAIME-2025において顕著な改善が見られ、Qwen3-8B-Baseでは平均スコアが基礎モデルの32.96から57.76へと大幅に向上。
また、学習曲線の分析では、VCRLが初期段階から急速に性能を伸ばし、最終的にも他手法を上回る結果を安定的に維持することが確認。
さらに、アブレーション実験により「分散に基づく動的サンプリング」と「Replay Learning」の双方が性能向上に寄与していることが明らかになり、VCRLの有効性と頑健性が裏付けられています。
この記事に関するカテゴリー