重新定义大规模语言模型的作用，利用 LLM-Modulo 框架完成规划和推理任务的新方法

大型语言模型 24/05/2024

三个要点
✔️指出大规模语言模型在自主推理和完美计划生成方面的局限性
✔️ 提出将大规模语言模型用于高级认知任务和作为问题求解辅助工具的方法
✔️ 通过一个新框架 "LLM-Modulo"，提出将大规模语言模型的能力用于计划生成和问题求解的方法。提出将其整合到推理问题解决中的方法

LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks
written by Subbarao Kambhampati, Karthik Valmeekam, Lin Guan, Kaya Stechly, Mudit Verma, Siddhant Bhambri, Lucas Saldyt, Anil Murthy
(Submitted on 2 Feb 2024 (v1), last revised 6 Feb 2024 (this version, v2))
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

目前备受关注的大规模语言模型是根据从互联网上收集到的大量数据训练而成的，展现出非凡的语言能力。人们期望这些模型不仅能处理文本生成，还能处理复杂的规划和推理等高级认知任务。然而，最近一些关于大规模语言模型的研究逐渐揭示了它们的局限性。在实践中，它们或许能即时生成下一个单词，但却不能自主进行底层推理。它本质上是一个巨大的 "系统 1"（见下文），专门预测即时下一个词，而不是进行有原则的推理。

尽管如此，对大规模语言模型推理能力的研究仍在继续。虽然有人认为大规模语言模型只能用作 "高级翻译"，但大规模语言模型的潜力远不止于此。作为反映人类知识的近似信息源（即使不是完美的），它们可以成为宝贵的资源，尤其是在解决"系统 2（见上文）"任务时。

本文旨在探讨大规模语言模型在规划和推理任务中能发挥什么作用，以及如何发挥作用。本文尤其关注自动规划界所研究的规划任务，并认为虽然大规模语言模型本身不能进行规划，但如果与规划生成和基于模型的外部验证相结合，它们可以提供有效的帮助。换句话说，它强调了将大规模语言模型作为人类和其他系统的辅助工具，而不是作为规划和验证实体的好处。为了实现这一目标，本文提出了一个新的规划和推理框架 LLM-Modulo 。

通过澄清对大规模语言模型的误解并了解其真正的能力和局限性，可以更有效地利用大规模语言模型来帮助解决更复杂的问题。本文有望为在期望过高和估计不足之间摇摆不定的大规模语言模型评估提供一个现实的视角。

大规模语言模型的局限性

本文还探讨了大规模语言模型的规划和自我验证能力的局限性。虽然在大规模语言模型公布之后，人们对其充满了期待和乐观，但最近的研究却对大规模语言模型的自主规划能力和可行性产生了怀疑。

事实上，即使是最先进的大规模语言模型（如 GPT-4），也只有 12% 的生成计划是无误和可执行的。无论大规模语言模型的版本如何，这一结果都是一致的。

此外，当领域中的动作和对象名称发生变化时，大型语言模型的性能会进一步下降。这些变化对标准人工智能规划器的性能没有影响。这进一步表明，与计划相比，大型语言模型更有可能对计划进行近似搜索。

大规模语言模型在验证其计划和通过自我批评改进计划方面也受到限制。大规模语言模型被认为有潜力通过迭代提示来提高准确性，即使它们不能一次性生成正确的解决方案，但这种想法是基于这样一种假设，即验证准确性比生成准确性更容易。然而，也有人对这一假设提出批评。特别是，如果大规模语言模型执行的是近似搜索，那么推理任务的复杂性并不会影响其性能。

最近的研究表明，大规模语言模型批评和改进自身解决方案的能力有限。例如，在解决图形着色问题时，大规模语言模型被证明不擅长以直接模式解决问题，也不擅长验证自己的答案。此外，有报告称，在迭代模式下对自己的答案进行自我批评，可能会因为无法识别正确的着色而导致错误的答案选择，从而使性能下降。

这些结果表明，大规模语言模型很难生成自己的计划来自我完善、自我批评和改进，然后利用这些计划来微调自己。这些发现凸显了大规模语言模型以计划为中心的局限性，为今后的研究和开发提供了重要的参考。

最近的研究还表明，大规模语言模型并不能保证完美的规划或其验证，深入探讨这一点有助于理解为什么文献中充斥着这样的批评。关于规划，可行的规划需要正确的知识和组合知识的能力。然而，在很多情况下，大规模语言模型提供的一般规划知识与可执行规划相混淆。例如，"筹办婚礼 "这样的抽象计划很容易与可执行计划混淆，因为并没有实际的执行意图。事实上，表明大规模语言模型具有规划能力的研究还表明，这些模型忽略了某些领域或任务中子目标之间的相互作用，或者说，这些模型在人为干预下会被 "修改"。

不过，大规模语言模型也有可以有效利用的方式。通过人类在循环中验证和完善模型，大规模语言模型可以成为有关世界动态和用户偏好的丰富信息来源。

在自我验证方面，大规模语言模型的能力也是有限的。对于某些任务，几乎不可能找到验证者或依赖外部验证。例如，Thoughts of Tree（ToT）等方法依赖于大规模语言模型的迭代反向提示，并一直持续到找到外部验证者可以接受的解决方案为止，但本质上只是针对具体问题的提示引理。最终，外部验证者的正确性是保证的关键。然而，这需要付出相当大的努力。

为了应对这些挑战，人们提出了"LLM-Modulo "等原则框架。这带来了使用大规模语言模型作为知识来源的新趋势，并显示出与以往基于知识的人工智能系统的相似之处。大规模语言模型为某些人类提供了一种新的方式，使其能够在没有不便的情况下获取特定问题的知识。然而，"如何稳健规划 "的问题依然存在。通过整体方法和框架，了解大规模语言模型的局限性并寻求超越这些局限性的方法非常重要。

通过 LLM-Modulo 框架进行稳健规划

为了回答规划与推理领域的一些重大问题，这里重点介绍 "LLM-Modulo "框架。它质疑了大规模语言模型自行规划和推理的能力，同时强调了大规模语言模型在解决规划和推理任务中发挥的建设性作用。大规模语言模型能够产生令人惊讶的想法和潜在解决方案，与基于模型的验证器和专家相结合，开辟了新的可能性。下图描述了 LLM-Modulo 框架的概念图。

该框架为各种规划和推理任务提供了一种有效的方法，并侧重于自动规划界多年来一直在研究的问题。其基本结构是一个简单但功能强大的 "生成-测试-批判 "循环，其中大规模语言模型根据问题说明生成候选计划，然后由批判者进行评估。值得注意的是，大规模语言模型生成的计划由外部批评者保证是合理的，从而产生更高质量的合成数据，并有助于进一步改进大规模语言模型。

设计方面的考虑强调"生成-测试 "模式，即大规模语言模型直接与外部批评者互动。通过这种方式，大规模语言模型负责推断和生成令批评者满意的解决方案。它还认识到，大规模语言模型不仅能为候选计划做出贡献，还能在领域建模、问题缩减策略和问题规范完善方面做出贡献。利用这些能力，大规模语言模型可以在规划过程中发挥各种作用。

最后，该架构谨慎地限制了人类的作用，将领域专家与大规模语言模型的互动纳入其中，以激发模型，并将最终用户与大规模语言模型的工作过程纳入其中，以完善问题规范。避免了人类直接参与规划的内部循环，从而为复杂的规划问题提供了高效可行的解决方案。

LLM-Modulo 框架的核心是 "批评者"，他们负责评估大规模语言模型生成的规划和推理问题解决方案。这些 "批评者 "使用严格和灵活的约束条件来判断所提出的计划是否合适。严格约束包括验证计划准确性的要素，如因果关系、时间轴的准确性和资源的合理使用。其中，VAL 是一种已知的基于模型的验证方法，可用于 PDDL 规划问题。另一方面，灵活约束则考虑了更多抽象因素，如风格、可解释性和用户偏好。

在这一框架中，大规模语言模型不能直接扮演严格批评者的角色，但它可以模仿灵活批评者的某些特征，从而做出贡献。这也允许风格批评者建立在大规模语言模型的基础上，从而确保从批评者的评价标准上保证框架的整体合理性。

批评者使用严格的（基于模型的）和灵活的（可能是基于大型语言模型的）标准来评估候选计划的适用性。如果所有严格的批评者都同意当前计划，那么该计划就会作为有效的解决方案提供给最终用户和实施者。如果不满意，批评者可以提出简单的 "再试一次 "反馈，也可以提出指出具体问题的详细反馈。

在 LLM-Modulo 框架内，大规模语言模型也可充当 "重构器"。许多基于符号模型的验证器都以专门的形式运行，因此需要将建议的计划转换为这些专门的表示形式。重构模块可协助完成这一转换过程。大规模语言模型善于在不同的语法表示法之间进行重新格式化，并利用这种能力帮助验证器准备输入。

反向提示（元）控制器在规划和推理任务解决中的作用至关重要。它集中了来自不同批评者的反馈，并将其处理为改进的提示，大规模语言模型可从中生成新的想法和解决方案。特别是在既有灵活的批评者又有严格的批评者的情况下，这种元控制器能将批评意见汇总为一致的反馈，从而产生更准确的结果。

后置提示控制器的处理步骤包括从简单的循环选择到在大规模语言模型的协助下创建摘要提示，以及应用提示多样化策略。这使得大规模语言模型可以从隐式搜索空间的不同区域搜索下一个候选解决方案。这种方法与思维树（ToT）提示系统等策略类似，有助于探索更广泛的可能性。

该框架还能解决规划问题，然后将得到的解决方案添加到合成数据语料库中，再利用合成数据语料库对机器学习模型进行微调（见下图（6、7））。这一循环旨在提高未来问题解决的准确性。

基于特定任务数据的微调可以提高人工智能的推理和规划能力，这一原理已被广泛接受。例如，利用区块世界的问题解决方案对模型进行微调，可以为类似问题带来更准确的解决方案。

然而，这项技术的诱人之处也同时带来了巨大的挑战。尤其是用于微调的数据来源。LLM-Modulo 框架提出了一种创新的解决方案，即机器学习模型自己生成合成数据，并在此基础上进行自我调整。这样，模型就能形成一个自我完善的循环，并逐步提高其推理性能。

然而，人工智能无法完全验证自己的解决方案，这是一个挑战。过去，通常使用外部计划生成器来生成可靠的合成数据；LLM-Modulo 框架利用基于人工智能的框架，提供了一种新方法来生成具有保证准确性的合成数据，从而解决了这一问题。.

如上所述，在大型语言模型的迭代提示过程中避免了人工参与。因为这对人类来说太耗时。取而代之的是，使用基于模型或自动验证器的大规模语言模型支持来管理规划和评论过程。该框架依赖于 "每个领域一次 "和 "每个问题一次 "的人机交互。

摘要

本文从一个新的角度探讨了大规模语言模型在规划和推理等任务中的潜力，提供了一种理解当前技术水平的新方法，而不是过于乐观或悲观。它认为，虽然大规模语言模型本身不具备规划能力，但如果与可靠的外部模型相结合，它们可以成为规划任务解决方案的关键角色。它们的主要作用是提供粗粒度知识，并提出可行的规划备选方案。

报告批评了以往关于大规模语言模型可单独用于规划和自我验证的说法，并深入探讨了这些说法可能产生误导的原因。它还指出了知识获取的粗糙程度及其对制定可行计划过程的干扰影响。

此外，我们还提出了 LLM-Modulo 框架，作为一种将大规模语言模型的想法生成和知识提供能力与外部验证器相结合的方法，以生成更稳健、更具表现力的计划。该框架超越了传统符号规划器的局限性，同时保留了其确定性。

论文提出了新 "神经符号 "架构的潜力，以及 AlphaGeometry 和 FunSearch 等成功案例。这些例子表明，LLM-Modulo 框架可以在未来的规划和推理中发挥重要作用。

与本文相关的类别

Takumu

重新定义大规模语言模型的作用，利用 LLM-Modulo 框架完成规划和推理任务的新方法

概述

大规模语言模型的局限性

通过 LLM-Modulo 框架进行稳健规划

摘要

[Libra] 利用解耦视觉系统对大规模语言模型进行新的多模态设计

[Libra] 利用解耦视觉系统对大规模语言模型进行新的多模态设计

建立并分析 "TruthEval "数据集，揭示 LLM 的弱点

建立并分析 "TruthEval "数据集，揭示 LLM 的弱点

SportQA 是一个新的数据集，用于测量大规模语言模型对体育运动的理解能力

SportQA 是一个新的数据集，用于测量大规模语言模型对体育运动的理 ...

基于人类偏好的人工智能助手评估新方法

基于人类偏好的人工智能助手评估新方法

大规模语言模型改变音乐教育的未来，Flute X GPT 和 LAUI 的潜力

大规模语言模型改变音乐教育的未来，Flute X GPT 和 LAUI ...

预测 2024 年巴黎奥运会手球比赛结果，并用 LLM 解释预测依据

预测 2024 年巴黎奥运会手球比赛结果，并用 LLM 解释预测依据