機械の心：言語モデルは自己と他者の信念を表す

Topological Data Analysis 2024年04月25日

3つの要点
✔️ 心の理論（ToM）は、他人の心の中で何が起こっているかを理解し、その人がどのように感じたり考えたりするかを推測する能力を指します。
✔️ 大規模言語モデル（LLM）は、人間のような社会的な推論をする能力を持っているようですが、その仕組みはまだよくわかっていません。
✔️ 言語モデルの活動を調べることで、そのモデルが他人や自分の心の中で何が起こっているかを推測する能力があることがわかりました。

Language Models Represent Beliefs of Self and Others
written by Wentao Zhu, Zhining Zhang, Yizhou Wang
(Submitted on 28 Feb 2024 (v1), last revised 29 Feb 2024 (this version, v2))
Comments: project page: this https URL
Subjects: Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

心の理論（ToM）は、他人の心の中で何が起こっているかを理解し、その人がどのように感じたり考えたりするかを推測する能力を指します。大規模言語モデル（LLM）は、人間のような社会的な推論をする能力を持っているようですが、その仕組みはまだよくわかっていません。この研究では、言語モデルの活動を調べることで、そのモデルが他人や自分の心の中で何が起こっているかを推測する能力があることがわかりました。これを操作すると、モデルの性能が大幅に変わり、その社会的推論の役割が明らかになります。さらに、この能力はさまざまな社会的な問題にも応用できそうです。

はじめに

LLMが人間の心の状態を理解できるかどうかについて、研究はさまざまな結果を示しています。一部の研究では、LLMが人間の心の状態を予測し理解する能力を示していますが、他の研究ではその能力が十分でないと指摘しています。この議論は、LLMが単なるパターンの再現に過ぎず、本物の理解から生じていない可能性があることを示唆しています。LLMの社会的推論能力についてより深い理解を得るためには、LLMの内部表現を研究することが重要です。具体的には、LLMが他人の心の状態と自分の心の状態を区別できるかどうかを調べます。また、LLMの内部表現を変更して、他者の心の状態を反映するようにするかどうかを調査します。最後に、LLMの能力がさまざまな社会的推論タスクにどのように一般化されるかを評価します。

提案手法・実験

言語モデルにおける信念表現

ここでは、人工知能が他の人やキャラクターの考えや信念をどのように理解するかを理解することを目指しています。なぜなら、人間が他者の心の中に入り込んで彼らの視点や信念を理解する能力は、社会的な相互作用やコミュニケーションにおいて非常に重要だからです。この研究では、言語モデルが文章を読んで他の人の信念を推測する能力をテストします。これを行うには、大規模なデータセットを使って言語モデルを訓練し、そのモデルがどのように他の人の考えを理解しているかを調べます。具体的には、文章中の情報から他者の信念を推測するために言語モデルがどのようなパターンや特徴を見つけるかを分析します。

また、この研究では、言語モデルが文章の中で誰かの信念を理解する方法を視覚化しようとしています。具体的には、言語モデルがどのように文章の中の情報を使って他の人の考えを表現しているかをグラフや図で示します。これにより、言語モデルの内部の動作を理解しやすくし、人間の信念理解との類似点や相違点を明らかにすることができます。以下の信念表現の線形分離可能性の図は、典型的な表現空間の視覚的な説明を提供します。

(A)では、神託の信念状態は線形モデルで正確に推定できますが、主人公の信念状態は推定できません。赤と青の線は、それぞれオラクルと主人公の線形決定境界を表します。
(B)では、オラクルと主人公の両方の信念状態は、線形モデルを使用して正確にモデル化できます。
(C)はさらに、多項線形回帰モデルを使用した共同信念状態推定の決定境界を示しており、矢印は各クラスのプローブ重みの方向を示しています。

信念表現の操作

ここでは、言語モデルが他者の信念をどのように理解し、操作するかを調査しています。具体的には、言語モデルの内部表現を操作して、社会的推論能力を変え、その影響を評価しています。まず、BigToMというベンチマークを使用して、言語モデルの信念理解能力を評価しています。このテストでは、さまざまな社会的推論タスクを使用し、エージェントの信念を予測する能力を測定します。それぞれのタスクは、エージェントの行動や知覚から信念を推論することを要求します。次に、言語モデルの内部表現を介入して、社会的推論能力にどのような影響を与えるかを調査します。

前方信念では行動から信念を推測し、前方アクションでは将来の行動を予測し、逆方向信念では行動から信念を推測します。これらのタスクは、日常的な相互作用で使われる推論パターンを模倣しています。具体的には、言語モデルの注意頭の活性化を操作して、特定の方向に導きます。これにより、エージェントの信念表現を変更し、モデルのパフォーマンスに影響を与えます。

BigToMベンチマークでのモデルのパフォーマンス比較は、真実の信念（TB）と誤った信念（FB）の条件下で行われます。真実の信念ではモデルの性能が高い一方、誤った信念では性能が低くなります。特に、Mistralは誤った答えに偏っています。この比較により、モデルが他者の誤った信念を理解する能力に不足があることが示唆されます。

Mistral-7Bを用いたForward Beliefタスクにおける異なる介入強度αの影響を調査しました。結果は、介入強度が増すと、「無効」な回答が増え、モデルが適切な形式で回答できなくなることを示しています。つまり、不確実な回答が増えるため、採点メカニズムによって回答が認識されなくなります。

実験の結果、特定の方向に介入することで、モデルの全体的な信念理解能力が向上することが示されました。特に、特定の方向に介入することで、誤った信念の場合の推論能力が向上しました。さらに、異なる社会的推論タスクにおける信念表現の一般性を調査しました。その結果、特定の方向が複数のタスクに一般化することが示されました。これは、言語モデルがさまざまな社会的推論タスクにおいて共通の基礎となる因果変数を理解していることを示唆しています。

結論

この研究では、言語モデル（LLM）が他者の信念を理解する能力を探究しました。我々の研究から、LLMが複数のエージェントの異なる信念を区別し、それらを操作することで社会的推論プロセスに影響を与えることが示されました。また、異なる社会的推論タスクにおける信念表現の一般化も示唆されました。

今後の展望としてまず、トレーニング中の信念表現の改善や、より複雑なAIシステムでの応用に向けた研究が必要です。さらに、より広範囲でのモデルやより複雑な状況における理解についての調査を行い、人間の価値観に沿ったToM機能の開発を目指すべきです。そのためには、さまざまなモデルや状況におけるToMの理解を拡げるための継続的な取り組みが必要です。この研究は、LLMのToM能力に関する新たな洞察を提供し、将来のAIの発展に貢献する可能性がありますが、さらなる研究と実践が不可欠です。