
VCRL:利用奖励差异控制学习难度的 LLM 强化学习新方法
三个要点
✔️ VCRL 是一种强化学习方法,可利用奖励方差动态调整样本难度
✔️ 集中学习高方差样本,并在记忆库中重复使用,以提高效率和稳定性
✔️ 在数学推理基准上的表现一直优于现有方法,并提高了对难题的适应性
VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
written by Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang
(Submitted on 24 Sep 2025)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Computation and Language (cs.CL)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
摘要
本文提出了一种新的强化学习方法--基于方差的课程强化学习(VCRL),以提高 LLM 的数学推理性能。
传统的强化学习方法,如 GRPO、DAPO 和 GSPO 推出法,在使用各种样本学习方面具有优势,但缺乏根据模型的学习阶段调整样本难度的机制。
其挑战在于它没有考虑到课程学习流程,即人类学习从 "简单问题到困难问题 "的过程。
VCRL 从 "奖励分散 "的角度解决了这一问题。也就是说,基于推出结果的奖励方差反映了样本难度的想法,选择方差较大的样本作为重点学习目标。
此外,通过引入 "重放学习"(Replay Learning),将高价值样本存储在记忆库中,以确保高效、稳定的训练。
实验使用 AIME、MATH500 和 OlympiadBench 等五个数学推理基准进行评估,结果一致优于现有方法。
建议的方法
所提出的方法 VCRL 包括两个要素。
首先是 "基于方差的动态采样"。
每个样本都会生成多个滚动,并计算其奖励的方差。
由于太容易的样本的所有奖励都接近于 1,反之,太难的样本的所有奖励都接近于 0,因此方差会减小。
另一方面,中等难度样本的方差最大,因为在中等难度样本中,正确答案和错误答案各占一半。
我们认为这些 "高方差样本 "对学习最有效,因此建立了一种机制,在训练中优先考虑这些样本。
其次,我们引入了 "重复学习"。
通过将高价值样本保留在记忆库中并在必要时重复使用,从而提高训练的稳定性。
具体来说,方差值低于阈值的样本会被从批次中剔除,取而代之的是在记忆库中补充高价值样本。
然后利用动量更新内存库,以保持最新性和多样性。
通过这两种机制,VCRL 可以动态调整模型的学习能力和样本的难度,确保高效稳定的强化学习。
实验
实验在五个基准(AIME-2024、AIME-2025、MATH500、OlympiadBench 和 AMC23)上进行,重点是数学推理任务。
使用Qwen3-4B-Base和Qwen3-8B-Base作为模型,并使用现有的强化学习方法(如GRPO、DAPO和GSPO)进行比较。
训练使用了包含 17,000 个数学问题的数据集(DAPO-Math-17K),每个样本产生 16 个滚动,每批产生 128 个滚动,训练步骤为 500 步。
结果,VCRL 在所有基准和两个模型上都表现出最佳性能。
特别是在更具挑战性的 AIME-2024 和 AIME-2025 模型上,VCRL 的性能有了显著提高,Qwen3-8B-Base 模型的平均得分从 32.96 显著提高到 57.76。
对学习曲线的分析也证实,VCRL 从初始阶段就迅速提高了性能,并保持了稳定的结果,即使在最后阶段也优于其他方法。
此外,消融实验表明,"基于方差的动态采样 "和 "重放学习 "都有助于提高性能,从而证实了 VCRL 的有效性和稳健性。
与本文相关的类别