最新AI論文をキャッチアップ

Pref-GRPO: ペアワイズ比較で実現する安定的なテキスト画像生成強化学習の新手法

Pref-GRPO: ペアワイズ比較で実現する安定的なテキスト画像生成強化学習の新手法

LLM-Paper

3つの要点
✔️ 従来の点数ベース報酬によるGRPOは「報酬ハッキング」に陥りやすく、生成画像の品質を損なう
✔️ 提案手法Pref-GRPOはペアワイズ比較による相対的好みを活用し、安定した最適化を実現
✔️ 新ベンチマークUniGenBenchにより、論理推論や文法理解など細粒度の評価を可能に

Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
written by Yibin WangZhimin LiYuhang ZangYujie ZhouJiazi BuChunyu WangQinglin LuCheng JinJiaqi Wang
(Submitted on 28 Aug 2025)
Comments: Project Page: this https URL

Subjects: Computer Vision and Pattern Recognition (cs.CV)

概要

本論文は、テキストから画像を生成するモデル(Text-to-Image, T2I)の強化学習手法に関する新しいアプローチを提案。

従来のGRPO(Group Relative Policy Optimization)手法では、生成画像の品質を評価する際に点数ベースの報酬モデルを用い、グループ内でスコアを正規化して方策を更新してきました。
しかし、この方法は「報酬ハッキング」と呼ばれる問題を引き起こしやすく、スコアが上昇する一方で画像品質が低下する現象が確認されています。

著者らは、この原因が「見かけ上の優位性(illusory advantage)」にあると指摘。
これは、生成画像間のスコア差が非常に小さい場合に正規化で差が過大に強調されることで生じます。

この問題を解決するため、本研究は「Pref-GRPO」という新手法を提案。
これは絶対的なスコアではなく、画像ペア間の相対的な好み(pairwise preference)に基づいて方策を更新する仕組みです。

さらに、著者らはモデル評価に向けて「UniGenBench」という新しいベンチマークを設計し、細粒度の次元でT2Iモデルの性能を評価可能に。
これにより、従来手法の限界を克服し、より安定的かつ人間の好みに即した画像生成の学習が可能となった点に本研究の意義があります。

提案手法

Pref-GRPOの中心的なアイデアは、従来の報酬スコア最大化から「相対的好みの適合」へと学習目標を転換することにあります。

具体的には、あるプロンプトに対して複数枚の画像を生成し、それらをペアごとに比較。
ペアワイズ報酬モデル(PPRM)を用いて、どちらの画像が好ましいかを判定し、その勝率を報酬信号として利用します。
各画像の勝率は、グループ内で正規化されて方策更新に用いられるとのこと。

この設計には三つの利点があります。
第一に、勝率を利用することで報酬の分散が拡大し、良質な画像と低品質な画像をより明確に区別できる点。
第二に、絶対的なスコア差ではなく相対的な順位に基づくため、報酬ノイズに対して頑健であり、報酬ハッキングの発生を抑制できる点。
第三に、人間の判断が本来相対的な比較に基づくことを反映するため、より自然で忠実な報酬信号を与えることができる点。

さらに、評価の観点では、著者らが提案する「UniGenBench」によって、テキスト理解や論理推論といった細かい次元まで評価が可能となり、モデルの長所と短所を精緻に分析できる点も特徴的です。

実験

実験では、まず既存の報酬最大化手法(HPS、CLIP、UnifiedRewardなど)とPref-GRPOを比較。
ベースモデルにはFLUX.1-devを使用し、評価にはUniGenBenchを採用。
その結果、Pref-GRPOは全体スコアで約6ポイント向上し、特に論理推論やテキスト描画の次元で顕著な改善を示しました。

また、従来法では訓練中に報酬スコアが上昇する一方で画像の品質が劣化する「報酬ハッキング」が観察されましたが、Pref-GRPOではこの現象が効果的に抑制されたとのこと。
さらに、生成画像の質的比較でも、既存手法が過度に彩度を高めるなど不自然な傾向を示したのに対し、Pref-GRPOではより自然で安定した表現が得られました。
加えて、外部ベンチマーク(GenEvalやT2I-CompBench)においても安定した性能向上が確認。

UniGenBenchを用いた広範なモデル比較では、GPT-4oやImagen-4.0-Ultraといった閉源モデルが高い性能を示す一方、Qwen-ImageやHiDreamといったオープンソースモデルも急速に進歩していることが示されました。
総じて、本手法はT2I強化学習の安定性と実用性を大幅に向上させる有効なアプローチであると結論づけられます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする