集団における文化的進化をLLMでシミュレートするためのフレームワークが登場！

Cultural evolution 2024年05月27日

3つの要点
✔️ LLMエージェントの集団における言語コンテンツの伝播と進化をシミュレートするためのオープンソースソフトウェアを開発
✔️ 直感的に操作できるユーザーインターフェースを開発し、誰でも研究が行えるような環境を構築
✔️ 実験により、LLMエージェントを用いて文化的進化を研究することの有効性を実証した

Cultural evolution in populations of Large Language Models
written by Jeremy Perez, Corentin Leger, Marcela Ovando-Tellez, Chris Foulon, Joan Dussauld, Pierre-Yves Oudeyer, Clement Moulin-Frier
(Submitted on 13 Mar 2024 )
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence(cs.AI); Human-Computer Interaction(cs.HC)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

文化進化(Cultural evolution)の研究は、人間の文化の時間的変化に対する因果的説明を行うことを目的にしており、本分野は過去数十年にわたり実験的・歴史的・計算論的手法を用いて様々な知見を生み出してきました。

その中でも計算モデルは、集団構造や伝播におけるバイアスなど、いくつかの要因の影響について検証可能な仮説を生み出すことに成功してきた一方で、複雑な社会的情報の変容を扱うのは困難であるという問題も見つかっていました。

こうした中で本論文の筆者は、人間の行動を模倣するために大規模言語モデル(Large Language Models, LLM)を活用することが、このギャップを解決するのに有効であると考えました。

本稿ではこうした背景から、LLMエージェントの集団における言語コンテンツの伝播と進化をシミュレートするためのオープンソースソフトウェアを開発し、LLMを用いて文化的進化を研究することの有効性を実証した論文について解説します。

Methods

本論文では、LLMの集団における言語コンテンツの文化的進化をシミュレートする手法を提案しており、シミュレートにおける各ステップの概要を下図に示します。

図(a)が示すように、各エージェントは指定された社会ネットワーク構造に従って配置され、最初の生成では全てのエージェントに初期化プロンプト(initialization prompt)が表示されます。

初期化プロンプトの例としては、「Imagine that you are telling a story to your kid. What would that story be? Just output the story, nothing else.(子どもに物語を話していると想像してください。そのお話はどのようなものでしょうか？物語だけを出力してください。)」といった文章が与えられます。

こうして初期化プロンプトが与えられた後、全てのエージェントはプロンプトをLLMのそれぞれのインスタンスに渡すことで答えを出力します。

その後、図(b)が示すように、各エージェントは変換プロンプト(transformation prompt)と呼ばれる文章と、一つ前の世代で隣接するエージェントが生成した物語のリストを連結した新しいプロンプトを受け取ります。

変換プロンプトの例としては、「Here is one or more stories you were told as a kid. It is now your turn to tell a story at your kid. Tell that story. Write only one story. Do not output anything else.(ここに、あなたが子どもの時に聞かされた物語が1つ以上あります。今度はあなたが子どもに物語を語る番です。その物語を話してください。一つだけ物語を書いて、他には何も出力しないでください。)」といった文章が与えられます。

加えてエージェントは、プロンプトの先頭に追記することで性格を追加することができ、例えば「You are very imagtinative(あなたはとても想像力豊かです。)」といった設定を行うことができます。

User Interface

研究者が本論文のモデルを簡単に使用できるように、筆者達は下図のような直感的なユーザーインターフェースを開発し、変数を操作して図を生成できるようにしました。

パネルによってユーザーは、シミュレーションしたいエージェントの数(Number of agents)・シミュレーションする世代の数(Number of generations)・シミュレーションを繰り返す回数(Number of seeds)を自由に設定することができます。

加えて、初期化プロンプト(Initialization prompt)と変換プロンプト(Transformation prompt)を選択することもでき、"Add prompt"をクリックして新しいプロンプトを追加することも可能です。

これらのパラメータの設定が完了したら、"Run"をクリックしてシミュレーションを実行することができ、シミュレーションが終了すると図が生成され、GUIのFiguresのタブに表示されます。

分析手法

Similarity

本論文において、結果を分析するために使用する主な指標はテキスト間の類似性になります。

この指標を計算するために基にscikit-learnのTfidfVectorizersを用いてテキストを意味のある数値表現に変換し、次に生成された全てのテキスト間のコサイン類似度を計算し、(N_agents * N_generations)×(N_agents * N_generations)の類似度行列を生成します。

その後、この類似度行列から以下の3つの尺度を抽出します。

within-generation similarity: ある世代で生成されたテキストが互いにどの程度似ているかを表す
successive similarity: ある世代で生成されたテキストと前の世代で生成されたテキストとの間の平均類似度を表す
similarity with the first generation: ある世代で生成されたテキストと第一世代で生成されたテキストとの平均類似度を表す

これらの尺度を基に、生成された物語間の意味的な類似性を表すSimilarity Matrix等を用いて結果の解釈を行います。

Visualization

本論文では、生成されたデータに対する定性的な洞察を行うための2つの可視化技術も提案しています。

1つ目のWord chainsでは、各テキストからキーワードを抽出し、世代間の進化を表現します。

テキストからキーワードを抽出するために、テキストを単語にトークン化し、一般的なストップワードと英数字以外のトークンを除去した後、残りの単語の頻度分布を計算し、その頻度に基づいて上位のキーワードを選択します。

これにより、どの単語が最も頻度が高いか・最も安定しているか・最も再利用されているかを可視化することができます。

2つ目のSimilarity networkでは、各ノードがテキストの世代を表すグラフネットワークを用いて、世代間の類似性を表現します。

ノードの位置はNetworkXライブラリが提供するレイアウトアルゴリズムによって決定され、類似性と相互接続に基づいて配置されます。

類似性の高い世代はより近くに配置され、類似した色で表される連続する世代は太いエッジでリンクされるこのアプローチによって、生成されたコンテンツの進化のダイナミクスを直感的に分析することが可能になっています。

Experiments

Transmission chain

本論文では、性格を割り当てない50体のエージェントを用いてモデルのダイナミクスの実験を行いました。

本実験の結果を下図に示します。

図(a)のSimilarity Matrixより、本実験では物語が修正されずに伝達される段階と、ストーリーが修正される段階が交互に存在していることが確認できます。

このようなダイナミクスは、文化的進化に関する実験やモデリングで報告されている現象であり、LLMエージェントを用いて文化的進化を研究することの有効性を実証する結果を得ることができたと言えます。

加えて図(c)はこのダイナミクスにおける世代間で使用されている単語表現を分析したグラフであり、このグラフから"magic"のように全世代にわたって多用されている単語がある一方で、"learn"のように最初の数世代しか使用されない単語があることが確認されました。

まとめ

いかがだったでしょうか。今回は、LLMエージェントの集団における言語コンテンツの伝播と進化をシミュレートするためのオープンソースソフトウェアを開発し、LLMを用いて文化的進化を研究することの有効性を実証した論文について解説しました。

本論文で行われた実験はあくまで試験的なものではありますが、得られたシミュレーション結果が文化的進化に関する実験やモデリングから得られた現象を再現しているという事実は、LLMベースのマルチエージェントモデルが人間の文化的進化を研究するための有用なツールであることを裏付けていると言えるでしょう。

一方で今後の課題として、様々な変数が文化的進化に及ぼす影響について、より体系的で詳細な分析を行う必要があることや、同じ物語から出発したグループが、時間の経過とともにどのように進化していくかを比較することなどが挙げられます。

加えて筆者は、本フレームワークは意見のダイナミクスや集団的イノベーション、言語の進化などの集団的行動に関連する他の問題を研究するのにも適していると述べており、本論文を起点に、様々な分野の研究のシミュレーションにLLMが利用されはじめるのではないでしょうか。

今回紹介したフレームワークや実験結果の詳細は本論文に載っていますので、興味がある方は参照してみてください。

この記事に関するカテゴリー

田中侑李