AIエージェント同士を議論させる評価フレームワーク、ChatEvalが登場！

agent simulation 2023年09月15日

3つの要点
✔️ 複数のエージェントを自律的に議論させ評価を行うマルチエージェントフレームワークであるChatEvalを提案
✔️ Debater Agents同士のグループディスカッションにより、人間のアノテーターに近い評価が可能に
✔️ 評価プロセスにおける多様な役割を持つアノテーターの必要性を実証

ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate
written by Chi-Min Chan, Weize Chen, Yusheng Su, Jianxuan Yu, Wei Xue, Shanghang Zhang, Jie Fu, Zhiyuan Liu
(Submitted on 14 Aug 2023)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

言語モデルによって生成されたテキストや、人間が書いたテキストの品質を評価することは重要な課題であり、従来の手法では人間がテキストにアノテーションを行うことが主流でしたが、このアプローチは時間とコストの点で現実的ではないと言われてきました。

こうした歴史の中で、Rouge・BLEU・METEORなどのn-gramに基づく自動評価指標が提案されてきましたが、これらの方法は特にオープンエンドの生成を含むタスクやドメイン固有の専門知識を必要とするタスクにおいて、人間の判断との相関が弱いことが示唆されてきました。

一方で、近年の自然言語処理分野の進歩によりGPT-3のような10億パラメータ規模の大規模言語モデル(LLM)が出現したことで、自由形式の質問に対する応答や要約を含む従来の自然言語生成タスクの質を評価するアノテーターとしてLLMを採用するLLM-as-a-judgeという手法が提案されました。

これらの手法は1体の生成エージェントに評価させるシングルエージェントベースのみが考案されていましたが、人間による評価プロセスにおいて、単一の視点に依存することは評価にバイアスや不安定性をもたらすことが多く、エージェントの場合にもこうしたバイアスの可能性が危惧されていました。

本稿では、こうした背景より特定の専門知識が与えられた複数のエージェントが自律的に議論し評価を行うマルチエージェントフレームワークであるChatEvalを提案し、評価プロセスにおける多様な役割を持つアノテーターの必要性について実証した論文について解説します。

ChatEval

本論文では下図に示すように、シングルエージェントベースのアプローチと比較して、より人間のアノテーターに近い評価を行うことを可能にしたマルチエージェントベースのフレームワークであるChatEvalを提案しました。

Debater Agents

Debater Agentsは本フレームワークにおける最も重要な構成要素の一つであり、専門的な知識を持ち、与えられたプロンプトから回答を生成するように指示を出されたエージェントのことを指します。

Debater Agentsを設定した後、グループディスカッションを開始し、各エージェントは自律的に他のエージェントからの返答を受信し、順番に自分の返答を送信します。

このように複数のエージェントがレフェリーとして評価プロセスに参加し、レフェリー同士が議論することで、最終的に人間のアノテーターにより近い評価を行うことができます。

Communication Strategy

エージェント同士のチャット履歴をどのように維持するかは、ChatEvalにおけるもう一つの重要な問題であり、本論文ではCommunication Strategyと呼ばれる設計によりチャット履歴のメンテナンスを行っています。

下図に示すように、本フレームワークではOne-by-One・Simultaneous-Talk・Simultaneous-Talk-with-Summarizerという3つの異なるCommunication Strategyを採用しています。(矢印の方向は情報の流れを表しており、その人物の発言が矢印が指す人物のチャット履歴に追加される事を意味します)

One-by-Oneでは議論の各ラウンドで、Debater Agentは決められた順番に、自らの専門知識に基づいて回答を生成します。Debater Agentが回答する時間になると、他のエージェントが発言した内容を直接そのエージェントのチャット履歴に追加します。

Simultaneous-Talkでは、One-by-Oneとは異なり、順番のない非同期的な議論を行います。ここでは、発言順序の影響を無効化するために、Debater Agentが議論の際に非同期に回答を生成するように促します。

Simultaneous-Talk-with-Summarizerでは、前述したSimultaneous-Talkとは違い、要約者としてSummarizerというエージェントを追加しており、議論の終わりにこのエージェントがこれまでのメッセージを要約し、全てのDebater Agentのチャット履歴に要約を追加します。

Experiments

本論文では提案手法であるChatEvalの有効性を実証するために、人間のアノテーターによる評価および既存手法であるFairEvalを加えた比較実験を行いました。

ChatEvalにおいては、単一のエージェントのみを用いるSingle-Agentおよび複数のDebater Agentsを用いるMulti-Agentの2つの条件を用いました。

既存手法と同じ評価アプローチを採用し、人間のアノテーターおよびLLMによって生成されたアノテーション結果を評価します。評価指標には、全インスタンスのうち正しく分類されたインスタンスの割合を測定するAccuracy(Acc.)とモデルと人間のアノテーターの結果の一致度を測定するKappa correlation coefficient(Kap.)を用いています。

比較実験の結果は以下のようになりました。