最新AI論文をキャッチアップ

人間の好みに基づく、AIアシスタントの新たな評価方法の提案

人間の好みに基づく、AIアシスタントの新たな評価方法の提案

Large language models

3つの要点
✔️ LLMの出力に対する「人の好み」を適切に評価するために2つの新しいベンチマークを提案
✔️ 人による評価を補完するために、最先端のLLMを評価者として利用するLLM-as-a-Judgeの有用性を検証
✔️ GPT-4による評価が、人による評価と高い一致度を示し、人による評価と同程度の信頼性を示すことを確認

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
written by Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica
(Submitted on 9 Jun 2023 (v1), last revised 24 Dec 2023 (this version, v4))
Comments: 
NeurIPS 2023 Datasets and Benchmarks Track
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

近年、「チャットアシスタント」や「チャットボット」を利用したサービスが急増しています。これらのツールは、近年注目を集めている大規模言語モデル(Large Language Models、LLM)が活用されており、教師ありファインチューニングと人間のフィードバックを用いた強化学習(Reinforcement Learning from Human Feedback、RLHF)を適用することで、人の好みに合わせた会話ができるよう調整され、自然言語での会話能力が改善されています。しかし、従来のベンチマークでは、このような人の好みへの適合度を十分に評価できないとされています。

代表的なベンチマークである「MMLU(Massive Multitask Language Understanding)」や「HELM(Holistic Evaluation of Language Models)」においても、人の好みに合わせて調整されたモデルとベースモデルの性能の差を十分に評価することはできないことがわかっています。つまり、「チャットアシスタント」や「チャットボット」に対するユーザーの評価と、従来のベンチマークの評価に大きなギャップがあり、実用上、ベンチマークが機能しないとされています。

このギャップは、従来のベンチマークが、LLMの性能を特定のタスク(例えば、多肢選択問題や検索質問)でしか測れないことに原因があります。特に、複数回のやり取りによる対話でユーザーの意図を理解するタスクや、人の好みを理解するタスクなど明確な目的がないオープンエンドなタスクを評価することができません。

そこで、この論文では、このギャップを埋めるために新しい2つのベンチマークを提案しています。1つは「MT-bench」です。これは、オープンエンドの質問で、チャットボットの会話の能力や、ユーザーの指示に従う能力を評価します。もう1つは「Chatbot Arena」です。これは、クラウドソースのプラットフォームを利用して、ユーザーは2つのチャットボットと同時に会話し、個人の好みに基づいてその会話を評価します。従来の評価方法では見落とされがちだった人の好みに対する適合性を適切に評価することを目的としています。 

また、人の好みを評価する際、人による評価はコストがかかります。そのため、代替手段として最先端のLLMによる評価「LLM-as-a-judge」の有用性も検証しています。

新しいベンチマークの提案

前述の通り、LLMを活用したサービスは、文章生成やチャット、コーディングなど、さまざまな用途で利用されているため、LLMの評価もさまざまな観点を考慮する必要があります。しかし、これらのLLMの能力を正確に評価することは難しい課題となっています。既存のベンチマークは、主に短い質問に対する回答するシンプルなタスクを評価しており、複雑な対話やオープンエンドの質問に回答するタスクは十分に評価することができません。

既存のベンチマークは次の3つのタイプに分類することができます。1つは、Core-Knowledge Benchmarkです。MMLU、 HellaSwag、ARC、WinoGrande、HumanEval、GSM-8K、AGIEvalが代表的なベンチマークです。事前に学習されたLLMの基本的な知識を評価するもので、短く具体的な回答を求めるものです。

2つ目は、Instruction-Following Benchmarkです。Flan、Self-instruct、NaturalInstructions、Super-NaturalInstructions が代表的なベンチマークです。これらは、より複雑な指示やタスクに対する回答を評価するものです。

3つ目は、Conversational Benchmarkです。CoQA、MMDialog、OpenAssistantが代表的なベンチマークです。これらは人との対話性能を評価することができますが、最新のチャットボットの性能を測るには不十分とされています。

このように、様々なベンチマークが公開されていますが、いずれもLLMと人の対話において、ユーザーの好みや、チャットボットの実用性を評価することが難しいとされています。この課題を解決するために、私たちは人間の好みを評価する2つの新しいベンチマーク「MT-bench」と「Chatbot Arena」を提案しています。そして、よりユーザーに寄り添ったチャットボットなどのAIアシスタントの開発に貢献することを目指しています。 

MT-Bench

「MT-Bench」は、LLMの複数回のやり取りを伴う対話とユーザーの指示に従う能力を評価するように設計されており、80の質問で構成されています。

また、8つのカテゴリ(執筆、ロールプレイ、情報抽出、推論、数学、コーディング、知識I(理工系)、知識II(人文・社会科学)に基づいて設計されています。各カテゴリには、専門家が設計した10の複数回のやり取りを伴う質問が含まれており、モデルの能力を多角的に評価できるようになっています。下表はMT-Benchのサンプルです。

Chatbot Arena

「Chatbot Arena」は、クラウドソースを利用したベンチマークシステムで、ユーザーが2つのチャットモデル(モデル名は非表示)と同時に対話し、それぞれに同じ質問を投げかけることができる仕組みになっています。ユーザーは、それらの回答を比較して、どちらの回答がより優れているかを投票することができます。モデル名は投票後に公開されます。下図はChatbot Arenaのダッシュボードです。

Chatbot Arenaは、事前に定義された質問に限らず、ユーザーが自由に質問を投げかけることができるため、実際のユースケースに即した評価をすることができます。このプラットフォームを1か月間運用した結果、約30,000件の投票を収集しています。ユーザーの好みを反映したデータ収集ができます。

ベンチマークとLLM Judgeの有用性を評価 

冒頭で述べた通り、この論文では、人の好みに対する性能評価を人ではなく、LLMで代替するLLM-as-a-Judgeも検討しています。そこで、MT-benchとChatbot Arenaを用いて、様々なLLMと人の評価がどの程度一致するのかを調査しています。

MT-benchを用いた調査は、特定の条件下で実施された小規模な実験です。LLMと人の評価の一致度だけでなく、人同士の評価の一致度も調査しています。6つのLLM(GPT-4、GPT-3.5、Claude-V1、Vicuna-13B、Alpaca-13B、LLaMA-13B)を使用して、80の質問に対する回答を生成しています。

これらのLLMの回答を、LLMによる評価と人による評価で比較しています。人による評価は、主に専門知識を持つ大学院生が行っています。LLMと人が回答を比較し、約3,000票のデータを集めています。LLMはすべてのペアを評価し、人はランダムに選ばれた20以上の複数の質問に対する回答を評価しています。

Chatbot Arenaを用いた調査は、MT-benchよりも大規模な実験です。インターネットをクラウドソースを利用して多くの参加者を募集し、LLMによる評価の一致度合を調査しています。Chatbot Arenaには約30,000件のデータがあり、ランダムに3,000件の投票を選んでいます。評価対象には、8つのLLM(GPT-4、GPT-3.5、Claude、Vicuna-7B/13B、Koala-13B、Alpaca-13B、LLaMA-13B、Dolly-12B)が含まれています。評価者には、LLMと、インターネットを通じて集めた参加者(2,114のユニークなIPアドレス)の投票が使用されています。

また、評価指標として「Agreement」と「Average Win Rate」を使用しています。Agreementは、ランダムに選ばれた質問に対してどの程度一致するかの割合を示しています。Average Win Rateは、あるLLMが他のLLMに対して、どの程度勝利するかの割合を示しています。

評価結果 

下表は、MT-benchを用いて、一致率を分析した結果を示しています。「G4-Pair」と「G4-Single」は評価方法を表しています。G4-Pairでは、ペアワイズ比較を使って、2つの回答を比較評価しています。一方で、G4-Singleでは、シングル・アンサーを使って、1つの回答を単独で評価しています。また、「S1」と「S2:は設定の種類を表しています。S1は、3種類の票(Non-tie, Tie, Inconsistent)が含まれており、S2では、1種類の票(Non-tie)だけが含まれています。各設定で、ランダムなLLM間の一致度は「R=」として表されています。各セルの上部に一致度が、下部の灰色の部分には投票数が示されています。

この結果からGPT-4が人の評価と非常に高い一致度を示していることがわかります。ペアワイズ比較とシングル・アンサーのいずれにおいても、GPT-4の一致率は、S2で85%に達しており、人同士の一致率81%を上回っています。また、GPT-4による判断が、人による判断を改善する可能性があることも示唆しています。

また、下表は、Chatbot Arenaを用いて、一致率を分析した結果を示しています。「G4」は、GPT-4を使用し、ペアワイズ比較で評価した結果を示します。「G4-S」は、GPT-4を使い、シングル・アンサーで評価した結果を示します。「G3.5」は、GPT-3.5を使用し、同じくペアワイズ比較で評価した結果を示します。「C」は、Claudeを使用し、ペアワイズ比較で評価した結果を示します。最後に、「H」は人の評価者による結果を示します。こちらもMT-benchと同様の傾向を示していることがわかります。


上述の両方の表で、シングル・アンサーを用いたGPT-4の結果は、ペアワイズ比較や人の好みによる結果と高い一致度を示しており、GPT-4が安定した評価基準を持っていることがわかります。十分に人の代替手法として利用できると考えられます。

さらに、様々なLLMのペアとカテゴリでの一致度を計算し、詳細な分析を行っています。下のグラフは、LLM同士の比較結果と、それに対するGPT-4と人の評価の一致率を示しています。グラフの各点は、2つの異なるLLMのペアを表しています。2つのLLMのうち、どちらが優れているかの判断がついた、Non-tieの票をカウントしています。つまり、どちらのモデルが勝ったかが明確な票のみを考慮しています。

また、X軸(Win Rate Difference)は、2つのLLMの勝率の差を示し、勝率の差が大きいほど、一方のLLMがもう一方のLLMよりも優れていることを示しています。Y軸の値(Agreement)は、GPT-4と人間の評価がどの程度一致しているかを示します。一致率が高いほど、GPT-4の評価が人間の判断と一致していることを示しています。

LLMのペアの勝率差が大きくなるにつれて、GPT-4と人の一致率が70%から100%に向上していることがわかります。これは、LLM間で明確な性能差がある場合に、GPT-4が人と高い一致率することを示しています。

まとめ

大規模言語モデルを基盤にした「チャットアシスタント」や「チャットボット」などのAIアシスタントの評価をする際、既存のベンチマークでは、人の好みにどの程度適合しているか(人が使いやすい出力をすることができるか)を十分に評価することができないとされています。

この論文では、この課題を解消するために、人の好みを評価することができる2つの新しいベンチマーク「MT-bench」と「Chatbot Arena」を提案しています。さらに、人の好みを自動で評価できるように、LLM-as-a-judgeを活用しています。

実験の結果、GPT-4のような高性能なLLMは、人による評価と非常に高い一致率を示し、人による評価と同程度の信頼性を示すことが確認されています。

さらに、この論文では、ベンチマークで使用された質問や投票、約30,000の人の好みを反映した会話データを公開しています(https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge)。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする