最新AI論文をキャッチアップ

AIエージェント同士を議論させる評価フレームワーク、ChatEvalが登場!

AIエージェント同士を議論させる評価フレームワーク、ChatEvalが登場!

agent simulation

3つの要点
✔️ 複数のエージェントを自律的に議論させ評価を行うマルチエージェントフレームワークであるChatEvalを提案
✔️ Debater Agents同士のグループディスカッションにより、人間のアノテーターに近い評価が可能に
✔️ 評価プロセスにおける多様な役割を持つアノテーターの必要性を実証

ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate
written by Chi-Min ChanWeize ChenYusheng SuJianxuan YuWei XueShanghang ZhangJie FuZhiyuan Liu
(Submitted on 14 Aug 2023)
Comments: Published on arxiv.

Subjects: Computation and Language (cs.CL)

code:
 

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

はじめに

言語モデルによって生成されたテキストや、人間が書いたテキストの品質を評価することは重要な課題であり、従来の手法では人間がテキストにアノテーションを行うことが主流でしたが、このアプローチは時間とコストの点で現実的ではないと言われてきました。

こうした歴史の中で、RougeBLEUMETEORなどのn-gramに基づく自動評価指標が提案されてきましたが、これらの方法は特にオープンエンドの生成を含むタスクやドメイン固有の専門知識を必要とするタスクにおいて、人間の判断との相関が弱いことが示唆されてきました。

一方で、近年の自然言語処理分野の進歩によりGPT-3のような10億パラメータ規模の大規模言語モデル(LLM)が出現したことで、自由形式の質問に対する応答や要約を含む従来の自然言語生成タスクの質を評価するアノテーターとしてLLMを採用するLLM-as-a-judgeという手法が提案されました。

これらの手法は1体の生成エージェントに評価させるシングルエージェントベースのみが考案されていましたが、人間による評価プロセスにおいて、単一の視点に依存することは評価にバイアスや不安定性をもたらすことが多く、エージェントの場合にもこうしたバイアスの可能性が危惧されていました。

本稿では、こうした背景より特定の専門知識が与えられた複数のエージェントが自律的に議論し評価を行うマルチエージェントフレームワークであるChatEvalを提案し、評価プロセスにおける多様な役割を持つアノテーターの必要性について実証した論文について解説します。

ChatEval

本論文では下図に示すように、シングルエージェントベースのアプローチと比較して、より人間のアノテーターに近い評価を行うことを可能にしたマルチエージェントベースのフレームワークであるChatEvalを提案しました。

Debater Agents

Debater Agentsは本フレームワークにおける最も重要な構成要素の一つであり、専門的な知識を持ち、与えられたプロンプトから回答を生成するように指示を出されたエージェントのことを指します。

Debater Agentsを設定した後、グループディスカッションを開始し、各エージェントは自律的に他のエージェントからの返答を受信し、順番に自分の返答を送信します。

このように複数のエージェントがレフェリーとして評価プロセスに参加し、レフェリー同士が議論することで、最終的に人間のアノテーターにより近い評価を行うことができます。

Communication Strategy

エージェント同士のチャット履歴をどのように維持するかは、ChatEvalにおけるもう一つの重要な問題であり、本論文ではCommunication Strategyと呼ばれる設計によりチャット履歴のメンテナンスを行っています。

下図に示すように、本フレームワークではOne-by-OneSimultaneous-TalkSimultaneous-Talk-with-Summarizerという3つの異なるCommunication Strategyを採用しています。(矢印の方向は情報の流れを表しており、その人物の発言が矢印が指す人物のチャット履歴に追加される事を意味します)

One-by-Oneでは議論の各ラウンドで、Debater Agentは決められた順番に、自らの専門知識に基づいて回答を生成します。Debater Agentが回答する時間になると、他のエージェントが発言した内容を直接そのエージェントのチャット履歴に追加します。

Simultaneous-Talkでは、One-by-Oneとは異なり、順番のない非同期的な議論を行います。ここでは、発言順序の影響を無効化するために、Debater Agentが議論の際に非同期に回答を生成するように促します。

Simultaneous-Talk-with-Summarizerでは、前述したSimultaneous-Talkとは違い、要約者としてSummarizerというエージェントを追加しており、議論の終わりにこのエージェントがこれまでのメッセージを要約し、全てのDebater Agentのチャット履歴に要約を追加します。

Experiments

本論文では提案手法であるChatEvalの有効性を実証するために、人間のアノテーターによる評価および既存手法であるFairEvalを加えた比較実験を行いました。

ChatEvalにおいては、単一のエージェントのみを用いるSingle-Agentおよび複数のDebater Agentsを用いるMulti-Agentの2つの条件を用いました。

既存手法と同じ評価アプローチを採用し、人間のアノテーターおよびLLMによって生成されたアノテーション結果を評価します。評価指標には、全インスタンスのうち正しく分類されたインスタンスの割合を測定するAccuracy(Acc.)モデルと人間のアノテーターの結果の一致度を測定するKappa correlation coefficient(Kap.)を用いています。

比較実験の結果は以下のようになりました。

表の太線で示したように、本手法であるChatEvalが両方の評価手法において最も良い結果となり、提案手法の有効性を示す結果となりました。

加えて本論文では定性的な分析も行っており、はじめに2人のアシスタントに対して「What are the most effective ways to deal with stress?(ストレスに対処する最も効果的な方法はなんですか?)」という自由形式の質問をしました。

アシスタント1の回答を下に示します。

アシスタント2の回答を下に示します。

この回答に対するアリス・ボブ・キャロルの3人のDebater Agentsによる評価プロセスを下図に示します。

2人のアシスタントの回答を受け取った後、アリスはまず、アシスタント2の回答の方がより詳細な情報を含んでいることを指摘し、より良い回答をしていると主張しました。

一方ボブは、アリスの評価に同意するとともに、アシスタント1の回答も簡潔で示唆にとむ質問を行っていると主張し、キャロルはどちらの回答も同じように価値があるとフィードバックを行っています。

その後の議論でボブは、アシスタント1の回答は率直であるのに対し、アシスタント2の回答は詳細であることを示し、議論の最後には人間のアノテーション結果と同じ評価結果を出力しました。

以上のことから、ChatEvalは単なる評価ツールではなく、人間の議論のやり取りをシミュレートすることで単一の視点では見逃されがちなニュアンスを捉えていることが実証されました。

まとめ

いかがだったでしょうか。今回は、特定の専門知識が与えられた複数のエージェントが自律的に議論し評価を行うマルチエージェントフレームワークであるChatEvalを提案し、評価プロセスにおける多様な役割を持つアノテーターの必要性について実証した論文について解説しました。

本論文では、評価プロセスにおいて多様な役割設定を持つエージェントを生成し議論を行わせることが、より人間の判断に近い包括的な評価をサポートすることを立証した示唆に富んだ内容であり、今後の評価手法に非常に役立つ結果を得られました。

今回紹介したChatEvalの評価プロセスや比較実験の詳細は本論文に載っていますので、興味がある方は参照してみてください。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする