[RL-GPT]在 Mincraft 中以比平常快几倍的速度获取钻石的框架现已推出

机器学习 18/04/2024

三个要点
✔️ RL-GPT 是一个结合了大规模语言建模 (LLM) 和强化学习 (RL) 的新框架。
✔️ 在 RL-GPT 中，一快一慢两个代理共同完成一项任务。
✔️ RL-GPT 优于传统方法，在 Minecraft 游戏中不到一天就能找回钻石。

RL-GPT: Integrating Reinforcement Learning and Code-as-policy
written by Shaoteng Liu, Haoqi Yuan, Minda Hu, Yanwei Li, Yukang Chen, Shu Liu, Zongqing Lu, Jiaya Jia
(Submitted on 29 Feb 2024)
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

RL-GPT 是一个结合了大规模语言建模 (LLM) 和强化学习 (RL) 的新框架。

LLM 可以使用各种编程工具，但在复杂逻辑和精确控制方面却很吃力；而在 RL-GPT 中，两个代理（一快一慢）共同执行任务。

慢速代理制定计划，快速代理根据计划进行实际编码。这样就能高效地完成任务。

与传统方法相比，RL-GPT 的性能更好，玩家可以在不到一天的时间内获得 Minecraft 游戏中的钻石。许多玩家认为，根据正常的游戏风格和运气成分，在威廉与魔兽中找到钻石所需的时间比较普通，在三到七天之间。

介绍

本文的主题是构建能在开放世界环境中完成任务的人工智能代理。这是人工智能研究的长期目标之一。大规模语言模型（LLMs）的出现增加了实现这一目标的可能性：虽然 LLMs 能够熟练使用计算机工具和操作搜索引擎，但它们在开放世界的特定环境中仍然受到限制。例如，在视频游戏中与儿童作战等任务中，LLMs 仍显不足。因此，强化学习（RL）越来越受到重视；强化学习是从互动中学习的有效方法，在促进本地语言学习者的 "实践 "方面大有可为。

然而，RL 面临的挑战是，它需要大量数据、专家论证和访问 LLM 参数，因此效率较低。为了解决这个问题，我们提出了一种整合 LLM 和 RL 的新方法。它允许 LLM 代理将 RL 训练管道作为一种工具。这一框架被称为 RL-GPT，旨在增强 LLM。这种方法使 RL 和 LLM 能够协同工作，共同完成任务。

上图显示了 RL-GPT 的概况。环境优化后，LLM 代理获得优化的编码行动，RL 实现优化的神经网络，而 RL-GPT 则获得优化的编码行动和神经网络。

建议方法

RL-GPT 由三个主要部分组成。

(1) 慢速代理将给定任务分解为多个子操作，并确定哪些操作可以直接编码。
(2) 快速代理编写代码并配置 RL。
(3) 通过迭代机制协调慢速代理和快速代理，提高 RL-GPT 的整体性能。

在 RL-GPT 中，RL 接口提供了以下组件：学习任务、环境重置、观察空间、行动空间和奖励函数。这就实现了 RL 与 "代码即政策 "的整合。低速代理使用 GPT-4，它将给定任务分解为多个子行动，并确定这些子行动是否可以编码。同时，快速代理也使用 GPT-4，它将慢速代理的指令翻译成 Python 代码，然后根据环境反馈进行修改；通过使用双环迭代机制，快速代理和慢速代理都得到了优化，快速代理是第一个被优化的，慢速代理是第二个被优化的。此外，还引入了任务规划器来处理复杂任务。这些组件共同使 RL-GPT 能够处理复杂任务，并提供高效的任务学习。

整体框架由慢速代理（橙色）和快速代理（绿色）组成。慢速代理分解任务并决定 "学习哪些行动"。快速代理为底层执行创建代码和 RL 配置。

试验

首先，研究中使用的环境是一个名为 MineDojo 的框架，这是一个用于在 Minecraft 游戏中设置各种任务（包括砍树或创建物品等长期任务）的开创性框架。它包括然后介绍了研究中采用的方法：该方法名为 RL-GPT，使用一种名为 GPT-4 的人工智能模型。该方法采用了近程策略优化（PPO），即从与环境的交互中采样数据，并使用随机梯度上升法来优化代理策略。

主要结果表明，RL-GPT 方法的性能优于其他基线方法。

在 MineDojo 任务中，RL-GPT 的成功率最高。

这就是 Minecraft 中 "获取钻石 "任务的主要成果。该任务的现有强基准需要专家数据（VPT、DEPS）、手工制定的子任务策略（DEPSOracle）或大量的环境训练步骤（DreamerV3、VPT）。我们的方法只需少量的人工前期工作就能自动分解和训练子任务，并能以出色的样本效率获取钻石。

与 DreamerV3、VPT、DEPS 和 Plan4MC 等现有方法进行比较后发现，RL-GPT 的成功率超过 8%。

它展示了不同的代理如何学习如何收集日志。更详细地看这个过程，RL-GPT 首先尝试编码与日志收集有关的所有操作，但第一次迭代的成功率为 0%。然后，RL-GPT 选择一个以树为目标的行动，对其攻击 20 次，然后执行。然而，事实证明找到这棵树对 LLM 来说太难了，于是指令代理选择更精细的行动。最终，RL-GPT 通过编码导航和攻击的组合找到了正确的解决方案，并在随后的迭代中表现得更好。这展示了 RL-GPT 有效学习任务并提高成功率的过程。

此外，研究还讨论了为什么 RL-GPT 在 Minecraft 中的一系列任务中表现出色，以及未来的应用。这表明，这项研究不仅可以应用于游戏中的人工智能训练，还可以应用于现实世界中的问题。

结论

这项研究提出了 RL-GPT，一种结合大规模语言建模（LLM）和强化学习（RL）的新方法。RL-GPT 将任务分为高水平的编码和低水平的基于 RL 的行动，使传统的 RL 方法和现有的 GPT agents比传统 RL 方法和现有 GPT 代理显示出更好的效率。因此，在 Minecraft 等高难度任务中表现出色。

RL-GPT 的未来前景包括更广泛的应用。例如，该方法可用于解决其他游戏和现实世界中的问题。此外，随着 RL-GPT 的改进和新应用方法的开发，它还可用于更复杂的任务。