最新AI論文をキャッチアップ

長文生成を進化させる新しい評価法『PrefBERT』による意味重視の報酬設計

長文生成を進化させる新しい評価法『PrefBERT』による意味重視の報酬設計

LLM-Paper

3つの要点
✔️ 従来の評価指標は長文生成の品質を正しく測れず、人間の判断と乖離していた
✔️ 著者らは軽量な評価モデルPrefBERTを開発し、意味的に整合的な報酬を提供
✔️ 実験でPrefBERTを用いると生成品質が向上し、人間評価において高評価を取得

Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation
written by Zongxia LiYapei ChangYuhang ZhouXiyang WuZichao LiangYoo Yeon SungJordan Lee Boyd-Graber
(Submitted on 18 Jun 2025)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)

code: 

概要

本論文は、大規模言語モデルによる自由形式の長文生成に対する評価と強化学習の課題を扱っています。

従来の評価指標であるROUGEやBERTScoreは、単語の重複や埋め込みの類似度を計測するだけで、文章の一貫性や情報の網羅性、適切な文体など人間が重視する観点を十分に捉えられませんでした。その結果、モデル訓練において望ましい報酬信号を与えられず、生成品質の向上が頭打ちになる問題が生じることに。

そこで著者らは、PrefBERTという軽量な評価モデルを提案。これは多様な長文回答と人間による5段階評価を用いて訓練されており、より精緻で意味的に整合的なスコアを算出します。実験では、このモデルを強化学習手法GRPOに組み込むことで、従来の評価尺度に比べて人間の好みと高い相関を持つ生成結果が得られることが示されました。この成果は、長文生成の品質向上に向けた重要な一歩と位置づけられます。

提案手法

提案手法の中心は、PrefBERTと呼ばれる小規模BERT系モデルを報酬関数として活用する点にあります。

まず、文法的・意味的に多様な応答データと、それらの質を人間が評価したLikertスケールのスコアを組み合わせ、教師データを構築。このとき、句構造としては、参照回答と生成回答を[CLS]トークンで始め、[SEP]で区切る一文として結合し、統一的な入力ベクトルを作成します。

その後、プーリング層から得た文全体の埋め込みに線形回帰とシグモイド関数を適用し、0から1の範囲で正規化された品質スコアを出力。このスコアをGRPOの報酬信号として利用し、生成モデルの方策を最適化しました。

従来のルールベース報酬と異なり、この手法は言語の多層的特性を捉えられるため、長文生成に特有の一貫性や流暢さを適切に評価できます。さらに、モデル規模が小さいため、計算効率も良好です。

実験

実験はELI5、Alpaca、LongFormの三つのデータセットを用いて行われました。いずれも平均185語程度の長文回答を含み、説明的・指示的・創作的と多様なスタイルが含まれています。

モデル訓練には、基盤モデルQwen2.5の1.5Bと3Bを使用し、報酬関数としてPrefBERT、GRM-LLaMA-3B、ROUGE-L、BERTScoreをそれぞれ比較しました。

評価は、GPT-4によるLikertスコア付与と、人間評価者による相対ランキングを併用。その結果、PrefBERTを用いたモデルは、同サイズの他の報酬関数を用いたモデルに比べて一貫して高いスコアを獲得しました。特に、文の構造的明確性と情報の充実度に関する指標で優れており、過度に冗長な生成を抑制できると確認。

これらの結果は、意味を重視する報酬設計の有効性を裏付けています。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする