
通过 "截断近端策略优化 "加速强化学习,实现长句生成的效率革命
三个要点
✔️ T-PPO 是一种通过学习长回应同时在中间断开回应来显著提高 PPO 计算效率的方法
✔️ EGAE 甚至可用于从部分回应中推断支配地位,并按顺序执行策略更新
✔️ 在数学推理基准 AIME 上的表现优于传统方法,性能最多可提高 2.5 倍训练效率提高了 2 倍
Truncated Proximal Policy Optimization
written by Tiantian Fan, Lingjun Liu, Yu Yue, Jiaze Chen, Chengyi Wang, Qiying Yu, Chi Zhang, Zhiqi Lin, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Bole Ma, Mofan Zhang, Gaohong Liu, Ru Zhang, Haotian Zhou, Cong Xie, Ruidong Zhu, Zhi Zhang, Xin Liu, Mingxuan Wang, Lin Yan, Yonghui Wu
(Submitted on 18 Jun 2025)
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本文提出了一种新方法--截断式近端策略优化(T-PPO),它显著提高了近端策略优化(PPO)的效率(PPO 是一种用于增强 LLMs 推理能力的强化学习方法)。)已被提出。
传统的 PPO 往往会浪费计算资源,尤其是在需要较长输出的情况下,例如在思维链推理中,因为训练效率会随着生成的响应的长度而降低。
另一方面,T-PPO 的特点是策略更新的顺序性,利用部分生成的输出,无需等待响应完成。该方法引入了一种名为 "扩展广义优势估计"(EGAE)的估计方法,它允许从已完成一半的响应中计算优势(Advantage)。它还通过同时独立优化策略模型和价值模型来减少计算冗余。
实验表明,在数学推理任务 AIME 上,所提出的方法优于之前的方法,同时将训练效率提高了 2.5 倍。
拟议方法
T-PPO 的核心在于扩展广义优势估计(EGAE)。
传统的 GAE 只允许在获得最终响应后计算优势,而 EGAE 则进行了扩展,甚至允许对部分输出进行精确估算。具体来说,优势是通过加权求和来估算的,通常的时差误差(TD 误差)是针对生成过程中获得的状态和行为按顺序计算的。
此外,还引入了标记过滤策略,即在策略更新中排除未完成响应的最新标记,因为它们会产生高方差,而所有已完成响应则用于训练值模型。这种机制大大提高了基于 GPU 的批处理效率。此外,T-PPO 还采用了顺序推出的批处理策略,即在下一步中替换部分完成的生成序列。
由于响应长度的多样性,这一策略减少了计算等待时间,并最大限度地提高了资源利用率。最后,在逐个令牌的基础上促进策略和价值优化,从而确保稳定收敛和高采样效率。
实验
我们在数学推理数据集 AIME 上进行了实验,以测试所提方法的效率和稳定性。以 Qwen-2.5-Base-32B 为基础模型,以 1e-6 的学习率和 2e-6 的值函数训练策略学习。
批量大小设置为 512 个提示,每个提示采样 16 次,最大响应长度为 24k tokens,窗口长度为 8k tokens。评估将 T-PPO 与传统方法(PPO、PPO-EWMA、GePPO、VAPO 等)进行了比较,发现 T-PPO 在 AIME 基准测试中获得了 62 分的 Pass@1,是最好的成绩。
此外,与 PPO 相比,挂钟时间减少了约 60%,证实在相同步骤数下,效率提高了 2.5 倍。此外,Roofline 分析表明,T-PPO 显著提高了计算强度,表明 GPU 利用效率更高。
我们还分析了训练过程中响应长度的变化情况,结果表明,生成较长响应的能力虽非单调变化,但最终保持稳定并得到提高。
与本文相关的类别