AIエージェントの性能を評価する包括的なベンチマーク、AgentBenchが登場！

agent simulation 2023年09月21日

3つの要点
✔️ 大規模言語モデルが生成したエージェントを評価する包括的なベンチマークであるAgentBenchを提案
✔️ 8つの異なる環境とデータセットからなるタスクを用いて、25種類の大規模言語モデルを用いた大規模な比較実験を実施
✔️ 実験の結果、APIベースとオープンソースの大規模言語モデル間に大きな性能差があることを発見

AgentBench: Evaluating LLMs as Agents
written by Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang
(Submitted on 7 Aug 2023)
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

GPT-4のような大規模言語モデル(LLM)の出現により、LLMは質問応答・自然言語推論・テキスト要約などの従来の自然言語タスクを処理できるようになっただけでなく、人間の意図を理解し、指示を実行する能力を持っている可能性がある事が考えられてきました。

こうした背景から、AutoGPT・BabyAGI・AgentGPTのような自律的な目標達成のためにLLMを採用した様々なアプリケーションの開発が行われ、大きな社会的関心と多くの議論を呼びました。

このような進歩にも関わらず、こうしたLLMエージェントを評価するための体系的かつ標準的なベンチマークがないことが重要な課題となっていました。

本稿では、こうした問題点を解決し、LLMによって生成されたエージェントの性能を評価するために、実世界のシナリオに基づいた8つのタスクと環境により構成された包括的なベンチマークであるAgentBenchを提案し、APIベースとオープンソースモデルを含む25種類のLLMエージェントを用いた大規模な比較実験を行った論文について解説します。

Composition of AgentBench

本論文で提案されたAgentBenchの概要を下図に示します。

AgentBenchはLLMによって生成されたエージェントを実世界のシナリオに基づいたOperating System(OS)・Database(DB)・Knowledge Graph(KG)・Digital Card Game(DCG)・Lateral Thinking Puzzles(LTP)・House-holding(HH)・Web Shopping(WS)・Web Browsing(WB)の8つのタスクと環境によって構成されています。

1つずつ見ていきましょう。

Operating System (OS)

ユーザーにとってLLMを端末でオペレーティングシステムにアクセスし操作できるようにすることが最初のアクションであり、自然言語をシェルコマンドに翻訳する試みはあるものの、本物の実行環境で評価した先行研究はほとんどありませんでした。

本タスクは、実際のオペレーティングシステムの対話的なbash環境(Ubuntu Dockerなど)での一連の操作(ディレクトるファイルを再起的に読み取り専用に設定するなど)を評価することを目的としています。

Database (DB)

データベースもまた、実際のユーザーがLLMを操作するための典型的なアクションであるため、LLMがSQLを介して実際のデータベースを操作する能力を調べることも非常に重要です。

このような背景から、本タスクでは実世界にあるような本物のSQLインターフェースとデータベース上でのLLMの動作を評価します。

Knowledge Graph (KG)

知識グラフ(Knowledge Graph)を扱うには、エージェントが複雑なタスクをよりシンプルで管理しやすいコンポーネントに分解する能力が必要であり、計画・戦略を立て、必要に応じて適応する能力が求められます。

このことから、知識グラフは複雑な実世界におけるエージェントの意思決定能力を評価するために有効であり、本タスクでは知識グラフを用いてエージェントの意思決定における柔軟性と適応性を評価します。

Digital Card Game (DCG)

戦略や計画を必要とするゲームは、エージェント開発のためのシミュレーション環境として役立つ可能性があり、最近の研究では実世界のゲーム(MineDojoなど)を採用しているものもありますが、そのほとんどは既存のLLMの性能を超えるマルチモーダルな機能が必要であるという問題点があります。

こうした背景から、本論文では代わりにデジタルカードゲーム(ハーフストーンなど)を用いており、こうしたゲームではカードの豊富なテキスト記述・ターンベースの競争・勝つためのプレイ戦略などの要素が含まれ、エージェントに対して戦略的な意思決定を行う能力が求められます。

そこで本タスクでは、エージェントがプレイヤーとして様々な能力を持つ魚のチームを管理し、ターンベースの形式で他のチームと戦うAquawarというゲームを用いてエージェントの性能を評価します。

Lateral Thinking Puzzles (LTP)

Lateral Thinking Puzzles(LTP)は世界中で人気のあるグループプレイゲームであり、このゲームでは通常、プレイヤーがなぞなぞに関連した質問をして、司会者が「はい」か「いいえ」か「関係ない」のいずれかで答える形式になっています。

問題は例えば、「A man walked into a restaurant, ordered a bowl of turtle setup, and after finishing it, he committed suicide. Why did he do that?(ある男がレストランに入り、カメのスープを注文し、それを飲み干した後に自殺した。なぜ彼はそんなことをしたのか？)」といった内容で、本タスクでは難易度を4段階に分類しています。

エージェントが司会者に対して質問を繰り返し、正解に当たる推論を行った時点で終了となり、"エージェントがどれだけ早く正解に辿り着いたか"と、正解までをいくつかのポイントに分解した上で"エージェントがいくつのポイントに到達したか"の2点を評価します。

House-holding (HH)

ALFWorldは既存研究で用いられている一般的な家庭を模して設計された仮想環境であり、本タスクではALFWorldの説明とゴールとなる指示(例：ランプをテーブルの上に置く)がエージェントに与えられます。

その後、エージェントが行動するたびにシミュレートされた環境からフィードバックが与えられ、最終的なエージェントのタスク達成能力を評価します。

Web Shopping (WS)

オンラインショッピングは現代生活の重要な一部となっており、既存の仮想のオンラインショッピング環境であるWebshopは、ウェブサイト上でユーザーが望む商品を検索・閲覧・選択するといったエージェントの推論能力と意思決定能力を評価するのに有効だと言えます。

本タスクでは、環境情報とエージェントが応答すべき形式を伝えるプロンプトを入力した後、ユーザーがどのような商品を購入したいかをエージェントに指示します。

その後エージェントがプロンプトに従って、検索エンジンを使ったりボタンをクリックすることで商品を検索し、ユーザーの希望に類似した商品を購入するまでの一連のタスク達成能力を評価します。

Web Browsing (WB)

Mind2Webは最近リリースされた、高レベルのユーザーの指示に基づいて様々なウェブサイトドメインで複雑なタスクを実行できるエージェントを開発・評価するための一般的なベンチマークになります。

本タスクはこのMind2Webを用いて、ユーザーから高レベルの指示(例：評価4以上・所要時間3〜6時間・中級者向けのプログラミングコースを取得し、カートに追加してチェックアウトする)を受けた際のエージェントのタスク達成能力を評価します。

Evaluation of AgentBench

本論文では既存のLLMのよって生成されたエージェントの性能に関する体系的な調査を行うために、APIベースとオープンソースを含む25種類のLLMに対してAgentBenchを用いた大規模な評価を行いました。(計算資源が限られているため、オープンソースLLMは30B以下のモデルのみを対象としています)

全モデルの概要は以下の通りです。

加えて筆者たちは、エージェントの評価を容易にするために、AgentBenchをあらゆるLLMモデルで簡単にカスタマイズできる評価ツールキットを設計しており、AgentBenchの対応する標準フォーマットのAPIを持つモデルサーバーをセットアップするだけで簡単にLLMを評価することが可能となっています。

AgentBenchを用いた評価結果の概要を下図に示します。

図から読み取れるように、GPT-4をはじめとするAPIベースのLLMエージェントが強力な性能を示す一方で、オープンソースモデルとAPIベースのモデルには明確な性能差があることが示されました。

加えて、モデル別のAgentBenchの総合スコアが下の表になります。(VERがモデルのバージョン、OAが全タスクの加重平均から得られたAgentBenchの総合スコアを表しています)

先ほどの図と同様に、GPT-4がAgentBenchの8つのタスクのうち7つで最高性能を示し、その他のAPIベースのLLMにおいても性能は多少劣るものの、全てのタスクで高い性能を達成しています。

一方でほとんどのオープンソースのLLMはAPIベースのLLMよりもはるかに性能が低く、最も性能の高いオープンソースモデルであるopenchat-13bでさえ、gpt-3.5-turboとは明らかな性能差が確認できます。

これは、いくつかのオープンソースのLLMがgpt-3.5-turboやgpt-4に匹敵するという最近の調査結果とは対照であり、オープンソースのLLMの性能を高めるためのさらなる努力の必要性を強調する結果となりました。

まとめ

いかがだったでしょうか。今回は、LLMによって生成されたエージェントの性能を評価するために、実世界のシナリオに基づいた8つのタスクと環境により構成された包括的なベンチマークであるAgentBenchを提案し、APIベースとオープンソースモデルを含む25種類のLLMエージェントを用いた大規模な比較実験を行った論文について解説しました。

本論文で行われた大規模な比較実験において、GPT-4をはじめとするAPIベースのLLMエージェントが優れた性能を示した一方で、オープンソースのLLMエージェントとの間の大きな性能差が明らかになりました。

LLMエージェントがますます社会実装され、実世界の課題に対応できるようになるためには、オープンソースモデルの発展が不可欠であるため、本論文がオープンソースモデルの発展に繋がることが期待されます。

今回紹介したAgentBenchの各タスクや比較実験の詳細は本論文に載っていますので、興味がある方は参照してみてください。