rStar2-Agent: GRPO-RoCによる効率的エージェント型強化学習で到達した最先端の数理推論

LLM-Paper 2025年08月31日

3つの要点
✔️ rStar2-Agentは14B規模ながら671Bモデルを超える数理推論性能を実現
✔️ GRPO-RoCと高効率インフラにより、環境ノイズに頑健な強化学習を可能に
✔️ わずか510ステップで最先端水準に到達し、数学以外にも推論能力を一般化

rStar2-Agent: Agentic Reasoning Technical Report
written by Ning Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang
(Submitted on 28 Aug 2025)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)

概要

本論文は、数理推論に特化した大規模言語モデル「rStar2-Agent」の開発とその成果について報告しています。

本モデルは140億パラメータ規模でありながら、従来は6710億パラメータ規模のモデルが到達していた最先端水準に匹敵する性能を実現。
その背景には、長大なChain-of-Thought（CoT）に頼る従来手法の限界があるとのこと。
すなわち、思考を「長く続ける」だけでは中間誤りを検知できず、柔軟な方針転換も困難でした。

著者らは、この課題を克服するために「思考をより賢くする」ことを目指し、エージェント的強化学習（Agentic Reinforcement Learning）を導入。
具体的には、モデルがPythonコードを適切に生成・実行し、その結果を反映しながら推論を改善する仕組みを強化学習で学習させています。

これを支える基盤として、4.5万件の同時ツール呼び出しに対応できる高効率なコード実行環境、環境ノイズを軽減する新アルゴリズム「GRPO-RoC」、および効率的なマルチステージ学習レシピが設計されました。
その結果、わずか510ステップ・1週間の訓練で最先端に到達し、数学以外の分野にも推論能力を一般化できることが示されました。

提案手法

本研究の提案手法は、エージェント的強化学習を効率的に大規模展開するための三つの要素から成り立ちます。

第一に、大規模なコード実行を支えるインフラの構築。
著者らは、最大4.5万件の並列ツール呼び出しを平均0.3秒で処理できる専用の実行環境を設計しました。
さらに、GPUの計算資源を動的に配分するスケジューラを導入し、負荷の偏りを解消しています。

第二に、GRPO-RoC（Group Relative Policy Optimization with Resampling on Correct）という新しいアルゴリズム。
これは、正答を得た軌跡の中からツールエラーやフォーマット違反の少ないものを優先的に強化し、失敗軌跡は多様性を維持して学習に利用する方式です。
これにより、報酬ハッキングを防ぎつつ、環境ノイズに頑健な学習が可能となります。

第三に、効率的な学習レシピ。
従来のように推論重視のSFT（教師あり微調整）を行わず、まずは単純な命令追従やツール利用の基礎のみを学習させ、その後にマルチステージのRLで推論力を段階的に強化しました。

この三要素により、従来より小規模な計算資源でも、実用的かつ強力な推論エージェントを構築できる点が特徴です。

実験

実験では、rStar2-Agent-14Bを用い、数学競技問題AIME24・AIME25やHMMT25といった難関ベンチマークで性能を評価しました。
その結果、AIME24では80.6%、AIME25では69.8%の正答率を達成し、これはDeepSeek-R1（671B）やClaude-Opus-4.0を上回る水準です。

また、平均応答長も短く、無駄のない効率的な推論を示しました。
訓練過程においても、ステージごとの性能向上が明確に確認。
第1段階では応答長8Kトークン制限のもとで基礎的推論力を獲得し、第2段階で制限を12Kに拡張することで更なる精度向上を実現しました。
最終段階では難易度の高い問題に集中して訓練し、最先端の水準に到達。

さらに、数学以外の分野でも一般化性能が確認され、科学推論ベンチマークGPQA-Diamondやエージェント的ツール利用タスクBFCL v3においても強力な成果を示しました。
加えて、誤答軌跡や自己反省的挙動を分析した結果、モデルが環境からのフィードバックを積極的に活用し、試行錯誤を通じて推論を改善する「反省トークン」的挙動を学習していることが明らかに。
これにより、本手法が単に性能を高めるだけでなく、より人間に近い思考過程を模倣していることが確認されました。