最新AI論文をキャッチアップ

長文生成の効率革命『Truncated Proximal Policy Optimization』による強化学習高速化

長文生成の効率革命『Truncated Proximal Policy Optimization』による強化学習高速化

LLM-Paper

3つの要点
✔️ T-PPOは長い応答を途中で区切りながら学習を進め、PPOの計算効率を大幅に向上させる手法
✔️ EGAEを用いて部分的な応答からも優位性を推定し、政策更新を逐次的に実施
✔️ 数学推論ベンチマークAIMEで従来手法を超える性能と最大2.5倍の訓練効率を達成

Truncated Proximal Policy Optimization
written by Tiantian FanLingjun LiuYu YueJiaze ChenChengyi WangQiying YuChi ZhangZhiqi LinRuofei ZhuYufeng YuanXiaochen ZuoBole MaMofan ZhangGaohong LiuRu ZhangHaotian ZhouCong XieRuidong ZhuZhi ZhangXin LiuMingxuan WangLin YanYonghui Wu
(Submitted on 18 Jun 2025)
Comments: Published on arxiv.
Subjects:  Artificial Intelligence (cs.AI)

code:  

概要

本論文では、LLMの推論能力を強化するために用いられる強化学習手法「Proximal Policy Optimization(PPO)」の効率性を大幅に向上させる新たな手法として「Truncated Proximal Policy Optimization(T-PPO)」を提案しています。

従来のPPOは、生成する応答が長くなるほど訓練効率が低下し、特にChain-of-Thought推論のような長い出力を必要とする場合に計算資源が無駄になりがちでした。

一方、T-PPOは、応答が完了するのを待たずに部分的に生成された出力を活用し、政策更新を逐次的に行うことが特徴です。この手法は「Extended Generalized Advantage Estimation(EGAE)」という推定法を導入することで、途中までの応答からも優位性(Advantage)を算出できるようにしました。また、ポリシーモデルとバリューモデルの最適化を同時かつ独立して実施し、計算の冗長性を削減します。

実験では、数学推論課題AIMEを用いて従来の手法と比較し、訓練効率を最大2.5倍改善しつつ、推論性能を上回ることを示しています。

提案手法

T-PPOの中心は「Extended Generalized Advantage Estimation(EGAE)」にあります。

従来のGAEは最終的な応答が得られた後にのみ優位性を算出可能でしたが、EGAEでは部分的な出力でも正確な推定が可能となるよう拡張されています。具体的には、生成過程の途中で得られる状態と行動に対し、通常の時間差分誤差(TD誤差)を逐次的に計算し、重み付き和により優位性を推定。

また、トークンフィルタリング戦略を導入し、未完了の応答の最新トークンは高分散を生むため政策更新から除外する一方、バリューモデルには全ての完了応答を用いて学習を行います。この仕組みによって、GPUを用いたバッチ処理の効率性が飛躍的に向上。さらに、T-PPOでは逐次的なロールアウトを行い、部分的に生成が完了したシーケンスを次のステップで置き換えるバッチ戦略を採用します。

この戦略は応答長の多様性に起因する計算待機時間を減らし、リソース活用を最大化。最終的に、トークン単位で政策・価値の最適化を進めるため、安定した収束性と高いサンプル効率を両立させています。

実験

実験は数学推論データセットAIMEを用いて行われ、提案手法の効率性と安定性が検証されました。ベースモデルにはQwen-2.5-Base-32Bが採用され、政策学習は学習率1e-6、価値関数は2e-6で訓練されました。

バッチサイズは512プロンプト、サンプリング回数は各プロンプト16回、最大応答長は24kトークン、ウィンドウ長は8kトークンに設定。評価では従来手法(PPO、PPO-EWMA、GePPO、VAPOなど)と比較し、T-PPOはAIMEベンチマークでPass@1スコア62を達成し、最良の結果を示したとのこと。

また、ウォールクロック時間はPPOと比較して約60%短縮され、同じステップ数で2.5倍の効率改善が確認。さらに、Roofline分析ではT-PPOが計算集約度を大幅に向上させていることが示され、GPU利用効率が高いことが分かりました。

訓練中の応答長の推移も解析され、非単調に変化しながら最終的に安定し、長い応答を生成する能力が維持・向上することが確認されています。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする