多様なエージェント同士を討論させることで、GPT-4を超える性能を引き出すフレームワークが登場！

agent simulation 2023年10月12日

3つの要点
✔️ 多様なエージェント間での討論プロセスを設計したマルチエージェントフレームワークであるRECONCILEを提案
✔️ 性能の低いエージェント同士に討論を行わせることで、GPT-4と同等以上の性能を獲得
✔️ 多様なエージェントから外部フィードバックを得ることにより、GPT-4の性能をさらに向上させることに成功

ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs
written by Justin Chih-Yao Chen, Swarnadeep Saha, Mohit Bansal
(Submitted on 22 Sep 2023)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence(cs.AI); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

近年、大規模言語モデル(LLM)の推論能力を向上させることを目的に、自分自身の予測の振り返りやフィードバックから学習することなど、人間の様々な認知プロセスを模倣する取り組みが行われています。

こうした取り組みに加えて、より多様な思考を促進するために、マルチエージェントシステムに心の社会(＝エージェントが多数集まり、互いに相互作用することによって心が生じるという考え方)を取り入れるための研究が広まってきています。

こうした動きから、複数のエージェント間のコミュニケーションは、複雑な意思決定において重要な役割を果たすため、multi-agent debating frameworks(Liang et al. 2023)のような複数のエージェントが討論を行い最終的な回答を導き出す手法に注目が集まっていました。

一方で、このようなフレームワークは討論のプロセスを通じて推論の多様性が高まるにもかかわらず、複数のエージェントは通常、同じ基礎モデルであるChatGPTの異なるインスタンスに制限されてしまっているため、モデル固有のバイアスが生じ、他のモデルからのフィードバックが不足してしまうという問題点がありました。

本稿ではこうした問題点を解決するために、多様なエージェント間での討論プロセスを設計したマルチエージェントフレームワークであるRECONCILEを提案し、異なる言語モデルから生成されたエージェントに由来する様々な洞察や外部からのフィードバックから学習することで、複雑な推論問題を解決することを可能にした論文について解説します。

RECONCILE: A Group Discuss And Convince Framework

人間は複雑な推論タスクに直面した時、集団的なブレインストーミングを行う等の心の社会とも呼ばれる集団知能の力を活用することが知られています。

本論文ではこのことからヒントを得て、複数のLLMから生成されたエージェント同士を討論させることで推論能力を向上させるマルチエージェントフレームワークであるRECONCILEを提案しました。

RECONCILEと既存の手法の違いを説明した図を下に示します。

既存手法(Self-Refine・Multi-Agent Debate・MAD+Judge)のほとんどはChatGPTなどの単一モデルに依存していますが、本手法であるRECONCILEはChatGPT・Bard・Claude2などの多様なモデルを組み込んでいるという特徴があります。

加えて本アプローチでは、他のエージェントに回答を改善するように説得することや、全てのエージェントからの信頼度推定(Confidence Estimation, 確率の未知のパラメータの近似値のセットを作成する方法)を取り入れるなど、討論を効果的に行うために様々な工夫を取り入れています。

下図に、ChatGPT・Bard・Claude2によるRECONCILEの概要を示します。

図に示すように、RECONCILEは以下の3つのフェーズによって動作します。

Phase1: Initial Response Generation

フェーズ1のInitial Response Generationでは、下に示すInitial Promptの従い、与えられた問題についてステップバイステップで推論するようエージェントに指示します。

加えて、生成した回答に対する信頼度(confidence level)を0〜1で算出するようエージェントに求めています。

Phase2: Multi-Round Discussion

フェーズ2のMulti-Round Discussionでは、下に示すDiscussion Promptが提示された後、エージェント間で複数ラウンドの討論を開始します。

討論の各ラウンドでは、全てのエージェントが前回のラウンドでの他のエージェントの回答に基づいて、自らの回答を修正します。

その後、事前に定義された停止基準(全てのエージェントから同意が得られるか、最大ラウンド制限に達する等)が満たされた時点で討論を終了します。

Phase3: Final Answer Generation

フェーズ3のFinal Answer Generationでは、討論のプロセスの終了後に、各エージェントによる投票によって最終的な回答を生成します。

既存研究でのマルチエージェントフレームワークは、ChatGPTなどの単一のモデルに依存することで異なるモデルから得られる補完的な意見やアンサンブル学習の利点を制限していたのに対し、本手法は複数のモデルを組み合わせることでロバスト性と全体的な精度の向上を可能にしています。

加えて、マルチエージェントシステムに新たに信頼度推定を取り入れることで、各エージェントが自分の主張を改善することが容易になり、より説得力のある回答を出力することが可能になっています。

下図は、これらをまとめた既存研究とRECONCILEの主な違いになります。

図が示すように、RECONCILEは前述した様々な工夫により、既存研究にて未実装であった要素を全て含んでいることが分かります。

Experiments

本論文では、RECONCILEの有効性を実証するために、ChatGPT・Bard・Claude2の3つのLLMを用いた実験を行いました。(ChatGPTを含む全ての実装にはgpt-3.5-turbo-0613を使用)

データセットには推論能力を評価するためにStrategyQAとECQA、数理的能力を評価するためにGSM8KとAQuAを使用し、全てのタスクでの精度と標準偏差を記録しました。

加えて、実験を行うにあたり以下の3つのカテゴリーの分類を行っています。

Vanilla Single-agent: ChatGPT・Bard・Claude2による標準的なプロンプトが含まれ、ステップバイステップで質問に答えるようにモデルに指示する(比較対象として、GPT-4も使用しています)
Advanced Single-agent: モデル自身を活用したフィードバックを繰り返し生成し、そのフィードバックを使って出力を改善するSelf-Refine(SR)と、複数の推論をサンプリングし、最も一貫性のある回答を生成するSelf-Consistency(SC)と、その2つを組み合わせた手法(SR+SC)をChatGPT上に実装する
Single-model Multi-agent: 最近提案された2つの手法である、ChatGPTの複数のインスタンス間のマルチエージェントでの討論を行う手法(Debate)と、討論プロセスを監視するジャッジを追加する手法(Judge)を実装する

実験結果は下の表のようになりました。

本結果で最も注目すべき点は、4つのデータセット全てにおいて、ChatGPT・Bard・Claude2を用いて実装されたRECONCILEは、これらのエージェント上に構築された全てのシングルエージェントおよびマルチエージェントのベースラインよりも優れているという点です。

加えて本手法は、StrategyQAやECQAのような推論能力が求められるデータセットにおいて、GPT-4(最上段)を上回る性能を示しています。

これは、RECONCILEは比較的性能の低い3つのエージェント(ChatGPT・Bard・Claude2)を活用することで、GPT-4に匹敵するかそれを上回ることが出来ることを実証する結果であり、本フレームワークの有効性を示しています。

次に本論文では、最も強力なLLMであるGPT-4が比較的性能の低いエージェントの複数ラウンドの討論に参加することの効果について調査しました。

具体的には、先ほどの実験に用いたChatGPTをGPT-4に置き換え、GPT-4・Bard・Claude2を用いてRECONCILEを実装した際の、各エージェントが討論の各ラウンド終了時に得た精度を記録しました。(データセットはStrategyQAを使用)

実験結果を下の表に示します。

表に示すように、ラウンドが増えるにつれて各エージェントの精度は向上しており、全てのモデルが討論から相互的な利益を得ていることが確認できます。

特にGPT-4は10%もの精度向上を記録しており、強力なエージェントが比較的性能の低いエージェントから有益な外部フィードバックを得ることにより、自身の性能を強化出来る可能性を示す結果となりました。

まとめ

いかがだったでしょうか。今回は、多様なエージェント間での討論プロセスを設計したマルチエージェントフレームワークであるRECONCILEを提案し、異なる言語モデルから生成されたエージェントに由来する様々な洞察や外部からのフィードバックから学習することで、複雑な推論問題を解決することを可能にした論文について解説しました。

実験結果により、RECONCILEによって比較的性能の低いエージェント同士を組み合わせることでGPT-4を超える性能を引き出せることや、多様なエージェントから外部フィードバックを得ることにより、GPT-4の性能をさらに向上させることなどの発見がありました。

こうした発見は、討論を行うことで複雑なタスクを解決するマルチエージェントシステムにおいて、多様なエージェントを活用することの可能性を示しており、今後の研究に大きな示唆を与えるものだと考えられます。

一方で、性能を考慮した結果、本フレームワークに使用したLLMモデルは全てAPIベースのものであるために、学習データやパラメータのスケールがブラックボックスであるなどの問題点も残っています。

この点に対して著者は、将来的にはより高性能のオープンソースモデルが登場することで、こうした問題点は緩和されると述べているため、今後の進展を楽しみに待ちましょう。

今回紹介したフレームワークや実験結果の詳細は本論文に載っていますので、興味がある方は参照してみてください。