仮想環境でAIエージェントと他者の共同作業をシミュレーションするためのフレームワークが登場！

agent simulation 2023年08月25日

3つの要点
✔️ LLMをマルチエージェントシミュレーションに利用するための新たなフレームワークを提案
✔️ 2つのベンチマークを用いてエージェント同士または人間とエージェントによる実験を実施
✔️ 実験結果から共同作業におけるLLMのプランニング能力とコミュニケーション能力を分析

Building Cooperative Embodied Agents Modularly with Large Language Models
written by Hongxin Zhang, Weihua Du, Jiaming Shan, Qinhong Zhou, Yilun Du, Joshua B. Tenenbaum, Tianmin Shu, Chuang Gan
(Submitted on 5 Jul 2023)
Comments: Project page: this https URL
Subjects: Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

大規模言語モデル(Large Language Models, LLM)は自然言語を理解し、複雑な推論能力を獲得している事が示唆されており、様々な領域において顕著な性能を示しています。

さらに近年では、LLMを用いて生成した単一のエージェントに人間の行動をシミュレーションさせる実験が数多く行われており、複雑なタスクをこなすための優れたプランナーとして機能することが実証されてきました。

一方、生成されたエージェントが他のエージェントや人間と共同作業をするためには、適切なコミュニケーションが必要であるにも関わらず、こうした能力を実証するためのマルチエージェントや人間との共同作業を想定した研究は行われてきませんでした。

本稿では、こうした背景からLLMをマルチエージェントシミュレーションに利用するための新たなフレームワークを提案し、仮想環境での実験により共同作業におけるLLMのプランニング能力とコミュニケーション能力に関する初めての体系的分析を行った論文について解説します。

大規模言語モデルによる協調的なエージェントのフレームワーク

本論文では、これまで検証されてこなかった様々な仮想環境でのマルチエージェントシミュレーションに対応するために、Observation Module・Belief Module・Communication Module・Reasoning Module・Planning Moduleという5つのモジュールから構成された新たなフレームワークを提案しました。

フレームワークの概要は下図のようになります。

Observation Module

エージェント同士またはエージェントと人間の協力を可能にするには、仮想環境から周りの情報を知覚し、情報を抽出する事が必要になります。

これらを可能にするために、本フレームワークでは、仮想環境から受信した情報を処理し、視覚的なシーングラフ・オブジェクト・仮想環境のマップ・他のエージェントの位置といったような情報を抽出するための最初のモジュールとしてObservation Moduleを組み込んでいます。

Belif Module

LLMは過去に見た情報や他者との相互作用に関する記憶を保持する機能を持っていないため、物理的な情報や他のエージェントの状態に関する情報を効果的に記憶し、更新するためのモジュールとしてBelif Moduleを組み込んでいます。

Communication Module

マルチエージェントシミュレーションにおいて、他者と効果的にコミュニケーションできる事は重要であり、効果的なコミュニケーションを可能にするには、メッセージとして何を送るかといつ送るかという2つの問題を解決する必要があります。

Communication Moduleでは、LLMをメッセージ生成に直接使用し、Instruction Head・Goal Description・State Description・Action History・Dialogue Historyから構成されるプロンプトを設計することで、上記の2つの問題に対処しています。

Reasoning Module

これまでのモジュールによって収集された情報を使って、エージェントは現在の状態・他者や周りの環境の状態・タスクの目標・自分がとった行動・受け取ったメッセージを統合して、次に何をすべきかのプランを考える必要があります。

このようなプランを立てるために、本フレームワークではCommunicationModuleと同様に設計されたプロンプトを用いて、すべての情報を推論し高レベルのプランを生成するReasoning Moduleを組み込んでいます。

Planning Module

エージェントが仮想環境内で複雑なタスクを達成するには、前述したように複雑なタスクに取り組むためのプランを組み立てる必要があります。

しかし、既存研究からLLMは高レベルのプランを立てることは得意な一方、低レベルのプランを立てることは苦手な傾向にあることが明らかになっていました。

そこで本モジュールでは、Reasoning Moduleによって生成された高レベルのプランに従って低レベルなプランを生成することを目的としてPlanning Moduleを設計しました。

Experimental Setup

本論文では、提案したモジュールによる仮想環境でのマルチエージェントシミュレーション実験を行うにあたり、2つのベンチマークを設定しました。

Communicative Watch-And-Help(C-WAH)

Communicative Watch-And-Help(C-WAH)は既存のWatch-And-Help Challengeという単一エージェント用のタスクを拡張したマルチエージェントシミュレーションベンチマークです。

このベンチマークはマルチエージェントシミュレーションプラットフォームであるVirtualHome-Social上に構築されており、お茶の準備・食器洗い・食事の準備・食料品の準備・食卓の準備という5つの家庭での一般的なタスクとして定義されています。

評価指標は、タスクを完了するまでに要した平均歩行数であるAverage Stepsと他のエージェントと協力することによるタスク効率改善を計算するEfficiency Improvement(EI)の2つになります。

ThreeDWorld Multi-Agent Transport(TDW-MAT)

2つ目は、既存の単一エージェント用のタスクであるThreeDWorld Transport Challengeを、下図に示すような多くの種類とオブジェクトとコンテナを追加し、より現実的なオブジェクトの配置を設定し、エージェント間の通信をサポートするマルチエージェント用の設定に拡張したThreeDWorld Multi-Agent Transport(TDW-MAT)です。

このベンチマークはTDW platformというシミュレーションプラットフォーム上に構築されており、エージェントはコンテナを使って、可能な限り多くのオブジェクトを下図のように設定されているゴール位置まで輸送することを求められます。(赤＝ゴール位置、オブジェクト＝青、コンテナ＝緑、エージェント＝水色、他のエージェント＝黄色)

評価指標は、ゴール位置まで輸送されたオブジェクトの割合を計算するTransport Rate(TR)と前述したEfficiency Improvement(EI)の2つになります。

Quantitative Results

2つの実験の結果は下表のようになりました。

表のHPはHierarchical Plannerという単純な階層構造のプランに基づいて行動するように設計されたエージェント、LLMは本フレームワークを用いて設計されたエージェントを表しています。

表が示すように、どちらの実験においてもHPエージェントが単独でタスクを実行する場合と比較して、HPエージェントが協力することでより効率的にタスクを完了させる事ができており、LLMエージェント同士が協力し合うことで最も高いパフォーマンスを達成することができていることが確認できます。

Qualitative Results

加えて本論文では、エージェント同士の効果的な協力行動に不可欠な要素を解明するために、実験でのエージェントの行動を定性的に分析し、下図に示すようないくつかの協力的な行動を特定しました。

例えば図aでは、男性エージェント(ボブ)は「自分が台所に行き、その間に女性エージェント(アリス)が他の部屋をチェックする」というプランを提案しますが、アリスは自分がすでに台所にいるという状況を考慮して、より良いプランを提案しています。

また、エージェントはあえてコミュニケーションをしないことの有効性も理解しており、図cではボブはアリスの提案を受けて状況を共有し、ちょうどオブジェクトである皿を見つけた際、自分一人でオブジェクトを持ってタスクを完了させる方が効率的であると判断し、アリスとコミュニケーションを取らない選択をしていました。

加えて、下図のように実際に人間によってコントロールされる女性エージェントとLLMを用いた男性エージェントによる共同作業も行われました。