LLMの協調行動と共有資源の管理能力を評価するためのプラットフォームが登場！

Simulation Platform 2024年08月22日

3つの要点
✔️ LLMの協調行動と共有資源の管理能力を評価するために設計されたシミュレーションプラットフォームであるGOVSIM(Governance of the Commons Simulation)を設計
✔️ GOVSIMを用いて、15種類のLLMによる大規模な比較実験を実施
✔️ 実験の結果、持続可能な結果を達成できたのはわずか2種類であった

Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents
written by Giorgio Piatti, Zhijing Jin, Max Kleiman-Weiner, Bernhard Scholkopf, Mrinmaya Sachan, Rada Mihalcea
Submitted on 25 Apr 2024
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

近年の大規模言語モデル(Large Language Models, LLM)の進歩は、様々なタスクにおいて人間に匹敵するだけでなく、場合によっては人間の能力を凌駕することもあります。

特に最近では、これらのモデルは複雑なエージェントシステムに統合されつつある一方で、LLMがこのようなシステムの中心となるにつれて、特に協調的な文脈においてLLMが安全かつ確実に動作する能力が必要となってきます。

協調行動におけるLLMの研究はまだ初期段階にあり、既存研究ではボードゲームといった制約のあるシナリオに焦点を当てたものが多く、シングルエージェントのLLMを対象とした取り組みも行われていますが、下記のような課題には対処できていないという問題がありました。

LLMがどのようにして協調規範を理解し、維持しているのかについての理解が十分でない
LLMがどのようにシミュレーション内の相互作用を処理し、報酬の最大化を行なっているのかが解明されていない
心理学や経済理論のシミュレーションプラットフォームとしてのLLMの活用の可能性は、十分に検討されていない

本稿ではこうした問題点を解決するために、LLMの協調行動と共有資源の管理能力を評価するためのシミュレーションプラットフォームであるGOVSIM(Governance of the Commons Simulation)を設計し、15種類のLLMによる大規模な比較実験を実施することでLLMモデルの協調戦略における性能を調査した論文について解説します。

GOVSIM(Goveranance of the Commons Simulation)

本論文にて設計されたシミュレーションプラットフォームであるGOVSIM(Governance of the Commons Simulation)は、シミュレーションのダイナミクスを管理するEnvironmentと与えられた環境内でシミュレーションと対話を行うAgentの2つのコンポーネントから構成されています。

Environment

GOVSIMにて設計されたEnvironmentには、マルチエージェントと部分的に観測可能なフレームワークが存在しており、それぞれが異なるフェーズからなる複数のラウンドを持っています。

各ラウンドの概要を下図に示します。

ここでは、以下のフェーズが含まれています。

Strategy: エージェントは過去を振り返り、将来の行動を計画して戦略を立てる
Harvesting: エージェントは資源の収集を行い、収穫する資源の量を決定する
Discussion: エージェントは議論の場であるタウンホールに集まり、参加者全員によるグループディスカッションを行う

Discussionのフェーズにてエージェントは仮想環境に集まり議論を行いますが、ここでmoderatorと呼ばれるエージェントのみ、各エージェントが前回のサイクルで収穫した量を開示する機能を持っています。

この機能を有効にすることで参加者間の透明性と説明責任を高めることができ、対照的に有効にしないことで、エージェント間の信頼と欺瞞のダイナミクスを調査することが可能になっています。

Agent

GOVSIMにおけるAgentは、既存研究にて記載されているアーキテクチャを採用している一方で、元のフレームワークが日常活動における人間のシミュレーションに重点をおいているのとは対照的に、より目的思考のタスクに適合させる設計になっています。

加えて、元のフレームワークではエージェント同士の対話は1対1に限定されていた一方で、GOVSIMでは会話モジュールを拡張し、moderatorが対話の管理を行えるようにしています。

これにより、直接的な質問にはターゲットのエージェントが答える一方で、より一般的な発言にはどの参加者からも意見を求めることができ、よりダイナミックでインタラクティブな議論が可能となっています。

これまでの解説を踏まえ、例としてエージェントが魚の個体群を共有するシミュレーションにおけるプロンプトは以下のようになります。

Experiment

本論文では、GOVSIMの有効性を実証するために、以下の15種類のLLMモデルを用いて大規模な比較実験を行いました。

Closed-weights models: GPT-3.5・GPT-4・Mistral Medium・Mistral Large・Claude-3 Haiku・Claude-3 Sonnet・Claude-3 Opus
Open-weights models: Llama-2 7B・Llama-2 13B・Llama-2 70B・Mistral 7B・Mistral 8x7B・Qwen 72B・DBRX・Command R⁺

本実験では、LLMエージェントが湖の魚の個体数を維持し、資源の利用と魚の個体数の維持の間で平衡に達する能力を調査しました。

シミュレーションの結果を下のグラフに示します。

グラフの縦軸は維持した魚の個体数、横軸が時間を表しており、この結果からGPT-4とClaude-3 Opus(緑線)は長期にわたって共有資源である魚の維持に成功しているのに対し、他のモデル(赤線)は資源の維持に失敗し、6月には魚が尽きてしまっていることが確認できます。

本結果の詳細を下の表に示します。

このように、性能の低いモデルはシミュレーションの複雑さを把握するのに苦労し、共有資源をより早く消費してしまうことが明らかになりました。

まとめ

いかがだったでしょうか。今回は、LLMの協調行動と共有資源の管理能力を評価するためのシミュレーションプラットフォームであるGOVSIM(Governance of the Commons Simulation)を設計し、15種類のLLMモデルによる大規模な比較実験を実施することでLLMの協調戦略における性能を調査した論文について解説しました。

本論文で行われた比較実験では、使用された15種類のLLMのうち、持続可能な結果を達成できたのはわずか2種類(GPT-4・Claude-3 Opus)であり、LLMモデルの共有資源を管理する能力には大きな隔たりがあることが明らかになりました。

一方で、本実験では資源共有のシナリオが単純化されているという問題点も言及されており、現実世界での共有資源の管理は、資源の種類の多様さやより幅広い利害関係者といったより複雑なダイナミクスを伴います。

本論文の筆者はこれに対し、"将来的にはこのような複雑性を含むようにシミュレーションを拡張することで、より詳細なLLMモデルの協力行動の解明が可能になるだろう"と述べているため、今後の進展が非常に楽しみです。

今回紹介したシミュレーションプラットフォームや実験結果の詳細は本論文に載っていますので、興味がある方は参照してみてください。

この記事に関するカテゴリー

田中侑李