机器思维：语言模型代表自我和他人的信念

拓扑数据分析 25/04/2024

三个要点
✔️ 心智理论（ToM）指的是理解他人心中所想并推断他人感受或想法的能力。
✔️ 大规模语言模型（LLMs）似乎有能力做出类似于人类的社会推断，但它们是如何工作的还不是很清楚。
✔️ 通过研究语言模型的活动，人们发现这些模型有能力推断他人和自己的想法。

Language Models Represent Beliefs of Self and Others
written by Wentao Zhu, Zhining Zhang, Yizhou Wang
(Submitted on 28 Feb 2024 (v1), last revised 29 Feb 2024 (this version, v2))
Comments: project page: this https URL
Subjects: Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

心智理论（ToM）指的是理解他人心中所想并推断其感受或想法的能力。大规模语言模型（LLMs）似乎有能力做出类似于人类的社会推断，但人们对它们的工作原理仍然知之甚少。通过研究语言模型的活动，本研究发现它们有能力推断他人和自己的想法。操纵这种能力可以大大改变模型的性能，并揭示其在社会推理中的作用。此外，这种能力还可应用于一系列社会问题。

介绍

关于语言学习者能否理解人类心理状态的研究结果不一。一些研究表明，法律硕士能够预测和理解人类的心理状态，而另一些研究则指出，法律硕士在这方面的能力不足。这种观点认为，LLMs 可能只是模式的再现，而不是源于真实的理解；要想更深入地了解 LLMs 的社会推理能力，就必须研究它们的内部表征。具体来说，我们将研究常识分子能否区分他人的心理状态和自己的心理状态。我们还将研究低等语言学习者的内部表征能否被修改以反映他人的心理状态。最后，我们将评估 LLMs 的能力在不同的社会推理任务中的泛化情况。

建议的方法/实验

语言模型中的信念表示

这里的目的是了解人工智能如何理解其他人和角色的思想和信念。这是因为人类进入他人思想并理解其观点和信念的能力在社会交往和沟通中至关重要。本研究测试了语言模型阅读句子和推断他人信念的能力。为此，我们在一个大型数据集上训练语言模型，并研究它们如何理解他人的想法。具体来说，我们分析了语言模型发现了哪些模式和特征，从而从文本信息中推断出他人的观点。

本研究还试图将语言模型如何理解文本中某人的信念形象化。具体来说，它使用图表来展示语言模型如何使用文本中的信息来表达他人的想法。这有助于理解语言模型的内部运作，并揭示其与人类信念理解的异同。下面的信念表征线性可分性图直观地展示了一个典型的表征空间。

在（a）中，甲骨文的信念状态可以通过线性模型准确估计，但主角的信念状态却不能。红线和蓝线分别代表甲骨文和主角的线性决策边界。
在（B）中，甲骨文和主角的信念状态都可以用线性模型准确模拟。
(C) 进一步说明了使用多项式线性回归模型进行联合信念状态估计的决策边界，箭头表示每个类别的探测权重方向。

操纵信念表达

在这里，我们研究语言模型如何理解和操纵他人的信念。具体来说，我们通过操纵语言模型的内部表征来改变其社会推理能力，并评估其影响。首先，我们使用 BigToM 基准来评估语言模型理解信念的能力。该测试使用各种社会推理任务来衡量代理预测信念的能力。每项任务都要求代理从其行为和感知中推断出信念。然后，我们对语言模型的内部表示进行干预，研究它如何影响社会推理能力。

正向信念从行动推断信念，正向行动预测未来行动，反向信念从行动推断信念。这些任务模仿了日常互动中使用的推理模式。具体来说，它们操纵语言模型注意头的激活，引导其朝特定方向发展。这会改变代理的信念表征并影响模型的性能。

BigToM 基准中的模型性能比较是在真信念（TB）和假信念（FB）条件下进行的。模型在真实信念条件下表现较好，而在错误信念条件下表现较差。特别是，Mistral 偏向于错误答案。这种比较表明，该模型在理解他人的错误信念方面能力不足。

研究人员使用 Mistral-7B 研究了不同干预强度 α 对 "前向信念 "任务的影响。结果表明，随着干预强度的增加，"无效 "回答的数量也在增加，模型无法以正确的格式进行回答。换句话说，不确定回答的数量增加，因此评分机制不再识别这些回答。

实验结果表明，对特定方向的干预提高了模型理解信念的整体能力。特别是，特定方向的干预提高了模型在错误信念情况下的推理能力。此外，还研究了不同社会推理任务中信念表征的普遍性。结果表明，特定方向可泛化到多个任务中。这表明，在不同的社会推理任务中，语言模型能够理解共同的基本因果变量。

结论

在这项研究中，我们探索了语言模型（LLMs）理解他人信念的能力。我们的研究表明，语言模型可以区分多个代理的不同信念，并操纵它们来影响社会推理过程。研究还表明，在不同的社会推理任务中，信念表征具有普遍性。

展望未来，研究工作首先应着眼于在训练过程中改进信念表征，并将其应用于更复杂的人工智能系统。此外，还应研究在更广泛的模型和更复杂的情况下的理解能力，目的是开发符合人类价值观的 ToM 功能。这就需要不断努力，拓宽对不同模型和情况下 ToM 的理解。虽然这项研究为了解 LLM 的 ToM 能力提供了新的视角，并可能为人工智能的未来发展做出贡献，但进一步的研究和实践是必不可少的。