赶上最新的AI论文

心灵之眼:利用模拟扩展提示,提高物理推理能力。

心灵之眼:利用模拟扩展提示,提高物理推理能力。

大型语言模型

三个要点
✔️ 提出基准数据集UTOPIA,以研究语言模型的物理推理能力
✔️ 提出名为 "心眼 "的方法,通过在提示中反映物理模拟的结果来提高语言模型的推理能力
✔️ 现有推理在提高推理性能方面优于现有方法

Mind's Eye: Grounded Language Model Reasoning through Simulation
written by Ruibo LiuJason WeiShixiang Shane GuTe-Yen WuSoroush VosoughiClaire CuiDenny ZhouAndrew M. Dai
(Submitted on 11 Oct 2022)
Comments: Published on arxiv. 

Subjects:  Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

导言

虽然大规模语言模型近来在各种任务中取得了超人的表现,但也有报道称其存在各种缺点。其中一个缺点就是由于缺乏物理世界的知识和经验,推理能力较差

人们生活在物理世界中,通过各种体验提高物理推理能力,但目前的语言模型由于学习方法的特性,只能从语言信息中把握物理世界的现象。这会导致物理规律方面的错误推理

为解决这一问题,已经设计了几种措施。例如,可以设计提示,让语言模型逐步推理。然而,这将完全依赖于语言模型内部存储的知识。另一种积极利用语言模型之外知识的方法是通过检索来强化知识,但书面语言表达的知识仍会受到偏见的影响

为了解决这些问题,本文研究了当前语言模型对物理定律的理解程度,并提出了一种利用模拟来提高其物理推理能力的方法

正确理解物理世界不仅对人类的推理能力很重要,而且对通用物理智能也很重要,本文对此有所贡献。

数据集 UTOPIA

为了研究当前语言模型对物理概念和规律的理解程度,我们提出了数据集 UTOPIA 作为基准。

数据集询问物体在六个代表性场景(运动、摩擦、自由落体、投影、碰撞、斜坡)中的运动情况,这些场景选自高中物理教科书和其他资料。这些问题是用相对数(大于等)而不是绝对数来编写的,目的是考察人类在现实世界中的感知能力。物理引擎可以计算问题的答案,因此数据集很容易扩展

下表显示了 UTOPIA 的一个示例。从表格最右侧可以看到,共有 39 个不同的子任务。

心灵之眼

我们还提出了 "心眼"(Mind's Eye)系统,这是一个利用物理模拟来改善物理推理压力的系统。它的结构如下(见下文)。

Mind's Eye 由三个部分组成:文本到代码转换器、物理模拟引擎和基础模型

文本到代码转换器

为了向物理引擎 MuJoCo 输入文本内容,有必要用 XML 文件替换文本。为此,在给定一个查询文本的情况下,对语言模型进行训练,以输出一个可由 MuJoCo 验证的 XML 文件。利用 200,000 个查询文本和 XML 表示的数据集,以自回归的方式从头开始训练解码器类型的语言模型。

模拟增强提示

物理引擎收到用于渲染的 XML 文件后,就会执行该文件,并在 Mind's Eye 的第三个组件,即基础模型(上图右侧的蓝色文本)的提示中描述结果

试验

为了评估现有的语言模型,我们为 UTOPIA 的 39 个子任务各准备了 100 个示例,共计 3900 个示例。

正在评估的语言模型是 GPT3 和 PaLM

结果如下图所 

蓝色和橙色柱状图显示了模型在 Mind's Eye 扩展提示之前的性能。蓝色为零次射击情况,橙色为少量射击情况。

随着语言模型规模的增大,性能也会有所提高,但我们可以看到,性能的提高趋于平稳,尤其是在少拍的情况下。

这是因为,尽管相对于 "零镜头","少镜头 "可以提高情境学习的效率,但缺乏与现实世界相联系的物理推理能力是一个瓶颈,阻碍了性能的提高

相比之下,紫色和红色的图表显示的是该模型在通过 "心眼 "扩展提示时的性能。紫色为零镜头情况,红色为少镜头情况。

由于 Mind's Eye 的增强功能,我们看到推理能力显著提高。

我们还发现,即使模型规模较小,与不使用 "心眼 "的大型模型相比,使用 "心眼 "也能提高物理推理性能。

这证明了将试验与推理分离的有效性。让植根于物理世界的特定领域模拟作为外部工具,让语言模型本身只专注于推理。这样,语言模型的规模似乎就会大大缩小

与各种技术的比较

本节比较了提高语言模型推理能力的各种方法。

为了进行比较,我们使用了提示改进方法,例如告诉用户 "让我们一步一步思考 "的零点推理器,以及外部知识检索的 RAG 等方法。

在比较方法中,基本上使用的是 GPT-3 175B 模型

结果如下表所示。从表中可以看出,所提出的 "心灵之眼 "方法在零镜头和少量镜头的情况下都优于其他方法。

GPT-3 1.3B 和 175B 的比较也表明,使用心眼扩展比简单增加模型尺寸更有效。

摘要

本文介绍的 "心眼 "方法利用模拟进行试验,并将结果反馈给语言模型提示,从而释放隐藏在语言模型中的推理能力。这种方法的应用范围超越了物理模拟,将广泛应用于其他领域。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们