LLMが「心の理論」を有しているかを評価するベンチマーク、OpenToMが登場!
3つの要点
✔️ 生成エージェントの心理状態の推論能力を評価する新しいベンチマークであるOpenToMを提案
✔️ タスクを定式化することでより詳細な質問が実行可能に
✔️ 大規模な検証により、LLMが「心の理論」を有しているかを検証
OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models
written by Hainiu Xu, Runcong Zhao, Lixing Zhu, Jinhua Du, Yulan He
(Submitted on 8 Feb 2024 (v1), last revised 14 Feb 2024 (this version, v2))
Comments: Published on arxiv.
Subjects: Artificial Intelligence(cs.AI); Computation and Language (cs.CL)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
近年、ChatGPTに代表される大規模言語モデル(Large Language Models, LLM)が、ToM(Theory-of-Mindの略で、心の理論とも呼ばれる、他者が異なる世界を知覚しているという認識とその差異を把握する能力)を有しているのではないかという仮説のもと、数多くの実験が行われてきました。
しかし、こうしたLLMがToMを行う能力であるN-ToM(Neural Theory-of-Mind)を評価する既存ベンチマークには、
- 登場人物の性格的特徴がない
- 生成エージェントの行動に対する動機づけがない(例:サムはなぜ物体を動かしたいのか?)
- 登場人物の心理状態を問う質問が不足している
といった複数の欠点があることが問題とされてきました。
本稿ではこうした背景から、物理的な世界において生成エージェントの心理状態の推論能力を評価するための新しいベンチマークであるOpenToMを構築し、大規模な検証によりLLMが「心の理論」を有しているかを検証した論文について解説します。
OpenToMのパイプライン
OpenToMの典型的なストーリーは、2人の登場人物・物体・いくつかの場所とコンテナで構築されており、2人の登場人物のうちの1人がアクションを実行するmover、もう一人がそのアクションを目撃するobserverの役割を担います。
ここで、moverとobserverによる一連のタスクの流れは下図のようになります。
ここではAmyがmover、Samがobserverであり、バスケットにあるアヒルの物体をバックパックに移動させるタスクを実行しています。
図の下に記載してあるように、OpenToMの各タスクの後には、物体の位置に関する質問であるLoc、推論能力と社会的常識が必要な質問であるMultiHop、登場人物の態度に関する質問であるAttitudeが続きます。
次に、これらの質問について詳しく解説します。
Location(Loc)
Locの問題では、物体の位置に対する登場人物の認識について質問を行います。
また、OpenToMではLoccoarseとLocfineの2種類の位置に関する質問があり、Loccoarseは物体が初期位置にあるかどうかを質問し、Locfineは物体の明示的な位置について質問します。
Multi-Hop(MHop)
MHopの問題では、推論能力と社会的常識が必要になる質問を行います。
例として、先ほどの図の問題にあった「From Sam's perspective, how would the accessibility of the rubbber duck change?(Samからみて、ラバーダックのアクセシビリティはどう変化するか?)」を考えてみます。
この問題に答える場合、Samはラバーダックの動きがどうなったかを推論する必要があります。(ここでは、ダックがバスケットからバックパックに移動しています)
加えて、ダックがAmyのリュックサックに入っている際に、Samは他人がAmyのバックパックから勝手に物を取ってはいけないという社会的常識を把握している必要があります。
こうした過程を経て、エージェントが"less accessible(アクセスしにくい)"と答えることができれば正解になります。
Attitude(Att)
Attの問題では、登場人物の心理状態を解釈する能力をLLMに問う質問を行います。
具体的には、「What would be Sam's attitude towards Amy's action assuming he observed it?(SamがAmyのアクションを観察した際、Samはどのような態度を取るか?)」といったように、moverの行動に対するobserverの態度を推測する質問が行われます。
タスクの定式化
本論文で提案されたOpenToMと既存のベンチマークとの違いとして、物理的な世界(例:物体の位置)と心理的な状態(例:特定の行動に対する登場人物の態度)の両方に関する登場人物の心理状態をカバーする質問を定式化しているという点があります。
OpenToMでは、全ての質問を2値または3値の分類タスクとして定式化しており、物語をNcomp、答えのセットをA、登場人物をc、質問をqcとおくと、OpenToMのタスクは以下のように定式化できます。
ここで、1explは登場人物中心の物語が明示的に提供された場合に1、そうでない場合に0を返す指標関数になります。
Experiments
本論文では、Llama2-7B・Llama2-13B・Llama2-70B・Mixtral-8x7B-Instruct・GPT-3.5-Turbo・GPT-4-Turboの6つの代表的なモデルを用いた実験を行いました。
OpenToMの質問は全て2値または3値の分類タスクとして定式化されており、ラベルが一様に分布していないことを考慮して、F1スコアを使用してモデルのパフォーマンスを評価しました。
OpenToMでの各モデルのF1スコアによる評価結果を下の表に示します。
図より、全体としてGPT-4-TurboはLoccoarse・MHop・Attの問題で他のモデルを大きく上回っていることが分かります。
一方で、GPT-4-Turboはほとんどの質問ジャンルで他のモデルにリードしているものの、Locfineの質問に対する回答能力は他のモデルに負けている点も非常に興味深い結果となりました。
また、GPT-4-TurboはMHopの問題で他のモデルを大きく上回った結果から、社会的常識が必要な推論が可能であることが示された一方で、他のモデルのMHopの低い値では、この点の検証が不十分であると考えられます。
そこで本論文では、下図に示すSelf-Ask promptを用いて追加の実験を行いました。
Self-Ask promptはLLMに一連のフォローアップを行う質問を明示的に提案し、それに答えることで最終的な回答を推論するように促すプロンプトテクニックになります。
Self-Ask promptを用いて改めてAttの質問のみを実験した結果を下の表に示します。
Self-Ask promptによってLLMのF1スコアを向上させることはできましたが、それでも人間のパフォーマンスには遠く及ばず、本実験を通じてLLMには登場人物の心理状態を知覚する能力が欠けていることが明らかになりました。
まとめ
いかがだったでしょうか。今回は、物理的な世界において生成エージェントの心理状態の推論能力を評価するための新しいベンチマークであるOpenToMを構築し、大規模な検証によりLLMが「心の理論」を有しているかを検証した論文について解説しました。
本論文で行われた実験により、特にGPT-4において位置情報や社会的常識をもとにした推論能力を持っていることがわかった反面、登場人物の心理状態を知覚する能力が欠けており、「心の理論」を有しているとは言えない結果になりました。
一方で、本実験ではLLMのゼロショットでのパフォーマンスしか検証していない点や、限られたオープンソースのLLMしか使用していない点など、まだまだ改善の余地が見られます。
さらなる研究でこれらの改善を行うことで、LLMが「心の理論」を有していることの証明につながる可能性が見えてくるため、今後の進展が非常に楽しみです。
今回紹介したOpenToMのパイプラインや実験結果の詳細は本論文に載っていますので、興味がある方は参照してみてください。
この記事に関するカテゴリー