最新AI論文をキャッチアップ

モデル自身が自分に報酬を与えてトレーニングを行う!?

モデル自身が自分に報酬を与えてトレーニングを行う!?

Self Rewarding

3つの要点
✔️ LLM-as-a-Judgeプロンプトを組み込み、LLM自身が学習中に報酬を獲得するアプローチを提案
✔️ Self-Instruction creationとInstruction following traingによる反復的な学習によって、モデルの自己改良を可能に
✔️ 比較実験により、AlpacaEval2.0 leaderboardにて、多くの既存モデルを凌駕する結果が得られた

Self-Rewarding Language Models
written by Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Shkhbaatar, Jing Xu, Jason Weston
(Submitted on 18 Jan 2024(v1), last revised 8 Feb 2024 (this version, v2))
Comments: 
Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence(cs.AI)

code:
  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

はじめに

近年、ChatGPTに代表される大規模言語モデル(Large Language Models, LLM)の性能を向上させるための数多くの研究が行われており、近年、preference data(企業が顧客と共有するデータで、予算や購買習慣などの個人情報が含まれる)を用いてLLMに事前学習させることで、モデルの性能を大幅に向上させることができることが明らかになりました。

一方で、こうしたアプローチでは、人間が用意するデータからモデルを訓練する必要があるため、データのサイズと質がボトルネックになってしまうという大きな問題点がありました。

本稿ではこうした背景から、LLM-as-a-Judgeプロンプトによって言語モデル自身が学習中に報酬を獲得し、反復的な学習を行う自己報酬型モデルであるSelf-Rewarding Language Modelsによってデータのサイズと質のボトルネックを解消し、比較実験により多くの既存モデルを凌駕する性能を発揮した論文について解説します。 

LLM-as-a-Judge

はじめに、本論文の提案手法に用いられているLLM-as-a-Judgeについて解説します。

LLM-as-a-Judgeとは、近年生成AIの評価手法として注目を集めているLLMによる自動評価技術であり、本論文では、以下の図に示すプロンプト形式で使用されています。

本プロンプトはモデルに対し、与えられた応答の品質を5つの基準(relevance・coverage・usefulness・clarity・expertise)を用いて評価するように指示しています。

Self-Rewarding Language Models

本論文にて提案されたSelf-Rewarding Language Modelsの概要を下図に示します。

図に示すようにSelf-Rewarding Language Modelsは、Self-Instruction creationInstruction following trainingの2つのステップから構成されています。

Self-Instruction creation

このステップでは、新しく生成されたプロンプト(Generated new prompts)をモデルMtが受け取り、そこからモデルMtによって高品質なレスポンス(Generate responses)が生成されます。

モデルMtはこの時、前述したLLM-as-a-Judgeプロンプトを介して自身の報酬(Generate reward)も予測しており、この報酬が次のステップに利用されます。

Instruction following training

このステップでは、LLM-as-a-Judgeプロンプトによって生成されたデータから新たなデータセット(Preference pairs)が作成され、DPO(Direct Preference Optimization)を介して訓練に使用され、そこからモデルMt+1が生成され、モデルの次の反復学習が行われます。

このステップを繰り返すことで、シードモデルから開始し、各反復において新たに作成されたプロンプトに対してモデルによって回答候補が生成され、同じモデル報酬が割り当てられるというプロセスが何度も行われます。

筆者は本論文内で、"このプロセスによってLLMモデルの制約となるボトルネックを取り除くことができる"と述べています。

Experimental Setup

本論文では、ベースモデルとしてLlama-2-70Bを使用し、IFT Seed DataEFT Seed Dataという2つのデータを用いて実験を行いました。

IFT Seed Dataは、Open Assistantデータセットに従って、3200個の会話の例から、人間が注釈をつけたランクに基づいて、高品質な英会話の最初の会話部分のみをサンプリングしたものになります。

加えて本論文では、このデータのみを使用してベースモデルからファインチューニングされたモデルをSFT baselineと呼び、比較実験に使用しています。

EFT Seed Dataは、Open Assistantデータセットを訓練セットと評価セットに分割し、LLM-as-a-Judgeを適用したデータセットになります。

また、本論文では提案モデルのパフォーマンスを指示に従う能力と報酬モデルとしての能力の2つの軸で比較するために、AlpacaEval evaluation promptを使用し、既存研究に従い様々なソースから得られた256個のテストプロンプトに対して、GPT-4を評価器にしています。

加えて本論文では、AlpacaEval2.0 leaderboardにて805個のプロンプトを用いて評価した結果も報告しています。

Result

多様なプロンプトを用いた実験の結果を下図に示します。(M1・M2・M3=学習の反復をそれぞれ1・2・3回繰り返したことを表す)

実験結果から、Self-Rewarding M1はSFT Baselineと同等の性能であることが分かります。(30.5% vs 30.9%)

一方で、Self-Rewarding M2はSFT Baselineを大幅に上回り(49.2% vs 14.5%)、Self-Rewarding M3はさらに大きな差をつけていることが確認できます。(62.5% vs 9.8%)

加えてM1 vs M3、M1 vs M2、M2 vs M3の結果においても、それぞれ学習の反復数が多いモデルが勝利しており、各反復においてモデルの性能が大幅に向上していることを実証する結果となりました。

次に、AlpacaEval2.0 leaderboardにおける実験結果を下の表に示します。(Win Rate=GPT-Turboに対する勝率)

 

表より、M1では9.94%、M2では15.38%、M3では20.44%と学習を繰り返すごとにWin Rateが向上していることが確認できます。

かつM3モデルに関しては、Win Rateという指標においてClaude 2・Gemini Pro・GPT-4 0613を含む多くの既存モデルを凌駕する結果を得ることができました。

まとめ 

いかがだったでしょうか。今回は、LLM-as-a-Judgeプロンプトによって言語モデル自身が学習中に報酬を獲得し、反復的な学習を行う自己報酬型モデルであるSelf-Rewarding Language Modelsによってデータのサイズと質のボトルネックを解消し、比較実験により多くの既存モデルを凌駕する性能を発揮した論文について解説しました。

本論文で行われた実験により、Self-Rewarding Modelsによる学習の反復が有効であることが実証された一方で、本実験では3回までの反復しか行っていないという注意点があります。

筆者は今後の研究課題として、反復回数を増やした場合と、異なる設定で能力の高い言語モデルや低い言語モデルを使用した場合におけるScaling Law(LLMのパラメータ数やデータセットのサイズが増えれば増えるほど、より高い性能を発揮できるという法則)を理解することを挙げています。

論文中でも挙げている通り、本手法における反復による性能の向上は現実的なシナリオでは飽和してしまう可能性が高い一方で、データの制約を受けずにモデルを継続的に改善できる可能性への扉を開くものであり、今後の進展が非常に楽しみです。

今回紹介したSelf-Rewarding Modelsや実験結果の詳細は本論文に載っていますので、興味がある方は参照してみてください。 

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする