赶上最新的AI论文

什么是AI-SCHOLAR？

心灵之眼：利用模拟扩展提示，提高物理推理能力。

心灵之眼：利用模拟扩展提示，提高物理推理能力。

大型语言模型 27/09/2023

三个要点
✔️ 提出基准数据集UTOPIA，以研究语言模型的物理推理能力
✔️ 提出名为 "心眼 "的方法，通过在提示中反映物理模拟的结果来提高语言模型的推理能力
✔️ 现有推理在提高推理性能方面优于现有方法

Mind's Eye: Grounded Language Model Reasoning through Simulation
written by Ruibo Liu, Jason Wei, Shixiang Shane Gu, Te-Yen Wu, Soroush Vosoughi, Claire Cui, Denny Zhou, Andrew M. Dai
(Submitted on 11 Oct 2022)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

导言

虽然大规模语言模型近来在各种任务中取得了超人的表现，但也有报道称其存在各种缺点。其中一个缺点就是由于缺乏物理世界的知识和经验，推理能力较差

人们生活在物理世界中，通过各种体验提高物理推理能力，但目前的语言模型由于学习方法的特性，只能从语言信息中把握物理世界的现象。这会导致物理规律方面的错误推理

为解决这一问题，已经设计了几种措施。例如，可以设计提示，让语言模型逐步推理。然而，这将完全依赖于语言模型内部存储的知识。另一种积极利用语言模型之外知识的方法是通过检索来强化知识，但书面语言表达的知识仍会受到偏见的影响

为了解决这些问题，本文研究了当前语言模型对物理定律的理解程度，并提出了一种利用模拟来提高其物理推理能力的方法

正确理解物理世界不仅对人类的推理能力很重要，而且对通用物理智能也很重要，本文对此有所贡献。

数据集 UTOPIA

为了研究当前语言模型对物理概念和规律的理解程度，我们提出了数据集 UTOPIA 作为基准。

数据集询问物体在六个代表性场景（运动、摩擦、自由落体、投影、碰撞、斜坡）中的运动情况，这些场景选自高中物理教科书和其他资料。这些问题是用相对数（大于等）而不是绝对数来编写的，目的是考察人类在现实世界中的感知能力。物理引擎可以计算问题的答案，因此数据集很容易扩展

下表显示了 UTOPIA 的一个示例。从表格最右侧可以看到，共有 39 个不同的子任务。

心灵之眼

我们还提出了 "心眼"（Mind's Eye）系统，这是一个利用物理模拟来改善物理推理压力的系统。它的结构如下（见下文）。

Mind's Eye 由三个部分组成：文本到代码转换器、物理模拟引擎和基础模型

文本到代码转换器

为了向物理引擎 MuJoCo 输入文本内容，有必要用 XML 文件替换文本。为此，在给定一个查询文本的情况下，对语言模型进行训练，以输出一个可由 MuJoCo 验证的 XML 文件。利用 200,000 个查询文本和 XML 表示的数据集，以自回归的方式从头开始训练解码器类型的语言模型。

模拟增强提示

物理引擎收到用于渲染的 XML 文件后，就会执行该文件，并在 Mind's Eye 的第三个组件，即基础模型（上图右侧的蓝色文本）的提示中描述结果

试验

为了评估现有的语言模型，我们为 UTOPIA 的 39 个子任务各准备了 100 个示例，共计 3900 个示例。

正在评估的语言模型是 GPT3 和 PaLM

结果如下图所

蓝色和橙色柱状图显示了模型在 Mind's Eye 扩展提示之前的性能。蓝色为零次射击情况，橙色为少量射击情况。

随着语言模型规模的增大，性能也会有所提高，但我们可以看到，性能的提高趋于平稳，尤其是在少拍的情况下。

这是因为，尽管相对于 "零镜头"，"少镜头 "可以提高情境学习的效率，但缺乏与现实世界相联系的物理推理能力是一个瓶颈，阻碍了性能的提高

相比之下，紫色和红色的图表显示的是该模型在通过 "心眼 "扩展提示时的性能。紫色为零镜头情况，红色为少镜头情况。

由于 Mind's Eye 的增强功能，我们看到推理能力显著提高。

我们还发现，即使模型规模较小，与不使用 "心眼 "的大型模型相比，使用 "心眼 "也能提高物理推理性能。

这证明了将试验与推理分离的有效性。让植根于物理世界的特定领域模拟作为外部工具，让语言模型本身只专注于推理。这样，语言模型的规模似乎就会大大缩小

与各种技术的比较

本节比较了提高语言模型推理能力的各种方法。

为了进行比较，我们使用了提示改进方法，例如告诉用户 "让我们一步一步思考 "的零点推理器，以及外部知识检索的 RAG 等方法。

在比较方法中，基本上使用的是 GPT-3 175B 模型

结果如下表所示。从表中可以看出，所提出的 "心灵之眼 "方法在零镜头和少量镜头的情况下都优于其他方法。

GPT-3 1.3B 和 175B 的比较也表明，使用心眼扩展比简单增加模型尺寸更有效。

摘要

本文介绍的 "心眼 "方法利用模拟进行试验，并将结果反馈给语言模型提示，从而释放隐藏在语言模型中的推理能力。这种方法的应用范围超越了物理模拟，将广泛应用于其他领域。

与本文相关的类别

Abe

如果您对文章内容有任何改进建议等，请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系，我们将非常感激。