RStar2-Agent：通过基于 GRPO-RoC 的高效代理强化学习实现最先进的数学推理

31/08/2025

三个要点
✔️ rStar2-Agent尽管只有14B大小，却实现了超越671B模型的数学推理性能
✔️ GRPO-RoC和高效的基础设施使强化学习能够抵御环境噪声
✔️ 仅需510步即可达到最先进水平，并将推理能力扩展到数学之外。

rStar2-Agent: Agentic Reasoning Technical Report
written by Ning Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang
(Submitted on 28 Aug 2025)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

本文报告了 rStar2-Agent 的开发和成果，这是一个专门用于数学推理的大规模语言模型。

尽管该模型的参数规模高达 140 亿个，但其性能却可与之前参数规模为 6710 亿个的模型所达到的一流水平相媲美。
这背后的原因是依赖冗长的思维链（CoT）的传统方法的局限性。
换句话说，仅仅通过 "保持足够长的思考时间"，很难发现中间错误和灵活的政策变化。

为了克服这一难题，作者引入了代理强化学习（Agentic Reinforcement Learning），旨在 "让思考更聪明"。
具体来说，强化学习用于学习一种机制，使模型能够恰当地生成和执行 Python 代码，并在反思结果的同时改进其推理能力。

在此基础上，设计了能同时处理 45,000 次工具调用的高效代码执行环境、减少环境噪音的新 GRPO-RoC 算法以及高效的多阶段学习配方。
结果表明，只需 510 个步骤和一周的培训就能达到最先进的水平，而且推理能力可以推广到非数学领域。

建议的方法

我们提出的方法由三个部分组成，用于高效地大规模部署代理强化学习。

首先，构建支持大规模代码执行的基础设施。
作者设计了一个专用执行环境，可在平均 0.3 秒内处理多达 45 000 次并行工具调用。
此外，还实施了动态分配 GPU 计算资源的调度程序，以消除负载偏差。

第二，一种名为 GRPO-RoC（Group Relative Policy Optimisation with Resampling on Correct）的新算法。
这是一种优先强化积极答案轨迹的方法，积极答案轨迹很少出现工具错误或格式违规，而失败轨迹则通过保持其多样性用于训练。
这使得学习既能抵御环境噪声，又能防止奖励黑客。

第三，高效的学习方法。
与传统的以推理为导向的 SFT（监督微调）不同，该系统首先只学习简单指令遵循和工具使用的基础知识，然后通过多阶段 RL 逐步加强推理能力。

这三者使我们能够用比以前更少的计算资源建立实用而强大的推理代理。

实验

在实验中，我们使用 rStar2-Agent-14B 评估了它在数学竞赛问题 AIME24 和 AIME25 以及 HMMT25 等高难度基准上的性能。
结果显示，rStar2-Agent-14B 在 AIME24 和 AIME25 中的正确率分别为 80.6% 和 69.8%，高于 DeepSeek-R1 (671B) 和 Claude-Opus-4.0。

平均响应长度也更短，表明推理精简高效。
在训练过程中，每个阶段的性能提高都很明显。
第一阶段，在 8K 响应长度令牌限制下获得了基本的推理能力，第二阶段将限制扩展到 12K，进一步提高了准确性。
在最后阶段，训练集中在难度更大的问题上，并达到了最先进的标准。

此外，在数学以外的其他领域，通用化性能也得到了证实，在科学推理基准 GPQA-Diamond 和代理工具使用任务 BFCL v3 上都取得了优异成绩。
此外，对错误轨迹和自我反思行为的分析表明，模型学会了 "反思标记 "行为，即积极利用来自环境的反馈，通过试错改进推理。
这证明该方法不仅能提高性能，还能模仿更像人类的思维过程。