
心灵之眼:利用模拟扩展提示,提高物理推理能力。
三个要点
✔️ 提出基准数据集UTOPIA,以研究语言模型的物理推理能力
✔️ 提出名为 "心眼 "的方法,通过在提示中反映物理模拟的结果来提高语言模型的推理能力
✔️ 现有推理在提高推理性能方面优于现有方法
Mind's Eye: Grounded Language Model Reasoning through Simulation
written by Ruibo Liu, Jason Wei, Shixiang Shane Gu, Te-Yen Wu, Soroush Vosoughi, Claire Cui, Denny Zhou, Andrew M. Dai
(Submitted on 11 Oct 2022)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
导言
虽然大规模语言模型近来在各种任务中取得了超人的表现,但也有报道称其存在各种缺点。其中一个缺点就是由于缺乏物理世界的知识和经验,推理能力较差
人们生活在物理世界中,通过各种体验提高物理推理能力,但目前的语言模型由于学习方法的特性,只能从语言信息中把握物理世界的现象。这会导致物理规律方面的错误推理
为解决这一问题,已经设计了几种措施。例如,可以设计提示,让语言模型逐步推理。然而,这将完全依赖于语言模型内部存储的知识。另一种积极利用语言模型之外知识的方法是通过检索来强化知识,但书面语言表达的知识仍会受到偏见的影响
为了解决这些问题,本文研究了当前语言模型对物理定律的理解程度,并提出了一种利用模拟来提高其物理推理能力的方法
正确理解物理世界不仅对人类的推理能力很重要,而且对通用物理智能也很重要,本文对此有所贡献。
数据集 UTOPIA
为了研究当前语言模型对物理概念和规律的理解程度,我们提出了数据集 UTOPIA 作为基准。
数据集询问物体在六个代表性场景(运动、摩擦、自由落体、投影、碰撞、斜坡)中的运动情况,这些场景选自高中物理教科书和其他资料。这些问题是用相对数(大于等)而不是绝对数来编写的,目的是考察人类在现实世界中的感知能力。物理引擎可以计算问题的答案,因此数据集很容易扩展
下表显示了 UTOPIA 的一个示例。从表格最右侧可以看到,共有 39 个不同的子任务。
心灵之眼
我们还提出了 "心眼"(Mind's Eye)系统,这是一个利用物理模拟来改善物理推理压力的系统。它的结构如下(见下文)。
Mind's Eye 由三个部分组成:文本到代码转换器、物理模拟引擎和基础模型
文本到代码转换器
为了向物理引擎 MuJoCo 输入文本内容,有必要用 XML 文件替换文本。为此,在给定一个查询文本的情况下,对语言模型进行训练,以输出一个可由 MuJoCo 验证的 XML 文件。利用 200,000 个查询文本和 XML 表示的数据集,以自回归的方式从头开始训练解码器类型的语言模型。
模拟增强提示
物理引擎收到用于渲染的 XML 文件后,就会执行该文件,并在 Mind's Eye 的第三个组件,即基础模型(上图右侧的蓝色文本)的提示中描述结果
试验
为了评估现有的语言模型,我们为 UTOPIA 的 39 个子任务各准备了 100 个示例,共计 3900 个示例。
正在评估的语言模型是 GPT3 和 PaLM
结果如下图所
蓝色和橙色柱状图显示了模型在 Mind's Eye 扩展提示之前的性能。蓝色为零次射击情况,橙色为少量射击情况。
随着语言模型规模的增大,性能也会有所提高,但我们可以看到,性能的提高趋于平稳,尤其是在少拍的情况下。
这是因为,尽管相对于 "零镜头","少镜头 "可以提高情境学习的效率,但缺乏与现实世界相联系的物理推理能力是一个瓶颈,阻碍了性能的提高
相比之下,紫色和红色的图表显示的是该模型在通过 "心眼 "扩展提示时的性能。紫色为零镜头情况,红色为少镜头情况。
由于 Mind's Eye 的增强功能,我们看到推理能力显著提高。
我们还发现,即使模型规模较小,与不使用 "心眼 "的大型模型相比,使用 "心眼 "也能提高物理推理性能。
这证明了将试验与推理分离的有效性。让植根于物理世界的特定领域模拟作为外部工具,让语言模型本身只专注于推理。这样,语言模型的规模似乎就会大大缩小
与各种技术的比较
本节比较了提高语言模型推理能力的各种方法。
为了进行比较,我们使用了提示改进方法,例如告诉用户 "让我们一步一步思考 "的零点推理器,以及外部知识检索的 RAG 等方法。
在比较方法中,基本上使用的是 GPT-3 175B 模型
结果如下表所示。从表中可以看出,所提出的 "心灵之眼 "方法在零镜头和少量镜头的情况下都优于其他方法。
GPT-3 1.3B 和 175B 的比较也表明,使用心眼扩展比简单增加模型尺寸更有效。
摘要
本文介绍的 "心眼 "方法利用模拟进行试验,并将结果反馈给语言模型提示,从而释放隐藏在语言模型中的推理能力。这种方法的应用范围超越了物理模拟,将广泛应用于其他领域。
与本文相关的类别