赶上最新的AI论文

[RL-GPT]在 Mincraft 中以比平常快几倍的速度获取钻石的框架现已推出

[RL-GPT]在 Mincraft 中以比平常快几倍的速度获取钻石的框架现已推出

机器学习

三个要点
✔️ RL-GPT 是一个结合了大规模语言建模 (LLM) 和强化学习 (RL) 的新框架
✔️ 在 RL-GPT 中,一快一慢两个代理共同完成一项任务。

✔️ RL-GPT 优于传统方法,在 Minecraft 游戏中不到一天就能找回钻石。

RL-GPT: Integrating Reinforcement Learning and Code-as-policy
written by Shaoteng LiuHaoqi YuanMinda HuYanwei LiYukang ChenShu LiuZongqing LuJiaya Jia
(Submitted on 29 Feb 2024)
Comments: Published on arxiv.

Subjects: Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

RL-GPT 是一个结合了大规模语言建模 (LLM) 和强化学习 (RL) 的新框架。

LLM 可以使用各种编程工具,但在复杂逻辑和精确控制方面却很吃力;而在 RL-GPT 中,两个代理(一快一慢)共同执行任务。

慢速代理制定计划,快速代理根据计划进行实际编码。这样就能高效地完成任务。

与传统方法相比,RL-GPT 的性能更好,玩家可以在不到一天的时间内获得 Minecraft 游戏中的钻石。许多玩家认为,根据正常的游戏风格和运气成分,在威廉与魔兽中找到钻石所需的时间比较普通,在三到七天之间。

介绍

本文的主题是构建能在开放世界环境中完成任务的人工智能代理。这是人工智能研究的长期目标之一。大规模语言模型(LLMs)的出现增加了实现这一目标的可能性:虽然 LLMs 能够熟练使用计算机工具和操作搜索引擎,但它们在开放世界的特定环境中仍然受到限制。例如,在视频游戏中与儿童作战等任务中,LLMs 仍显不足。因此,强化学习(RL)越来越受到重视;强化学习是从互动中学习的有效方法,在促进本地语言学习者的 "实践 "方面大有可为。

然而,RL 面临的挑战是,它需要大量数据、专家论证和访问 LLM 参数,因此效率较低。为了解决这个问题,我们提出了一种整合 LLM 和 RL 的新方法。它允许 LLM 代理将 RL 训练管道作为一种工具。这一框架被称为 RL-GPT,旨在增强 LLM。这种方法使 RL 和 LLM 能够协同工作,共同完成任务。

上图显示了 RL-GPT 的概况。 环境优化后,LLM 代理获得优化的编码行动,RL 实现优化的神经网络,而 RL-GPT 则获得优化的编码行动和神经网络。

相关研究

首先,Minecraft 是一款开放世界游戏,在其中高效、通用地构建代理非常重要。以往的研究通常采用分层强化学习法,并依赖于人工演示。然而,这些方法需要许多步骤来完成短期或长期任务。随后,我们采用了一种使用 LLM 的方法。这使得任务分解和高层次规划成为可能。但是,这些方法依赖于人工设计的控制器和代码接口,避免了学习低级策略的挑战。最后,人们提出了 RL-GPT。它扩展了 LLM 的能力,为其配备了 RL,实现了 Minecraft 中自动、高效的任务学习;RL 和 LLM 具有互补能力,整合后有望实现高效的任务学习。

RL-GPT 将 RL 作为一种工具,确保 LLM 技能不断提高,能力得以保持。这是最早的研究之一。

建议方法

RL-GPT 由三个主要部分组成。

(1) 慢速代理将给定任务分解为多个子操作,并确定哪些操作可以直接编码。
(2) 快速代理编写代码并配置 RL。
(3) 通过迭代机制协调慢速代理和快速代理,提高 RL-GPT 的整体性能。

在 RL-GPT 中,RL 接口提供了以下组件:学习任务、环境重置、观察空间、行动空间和奖励函数。这就实现了 RL 与 "代码即政策 "的整合。低速代理使用 GPT-4,它将给定任务分解为多个子行动,并确定这些子行动是否可以编码。同时,快速代理也使用 GPT-4,它将慢速代理的指令翻译成 Python 代码,然后根据环境反馈进行修改;通过使用双环迭代机制,快速代理和慢速代理都得到了优化,快速代理是第一个被优化的,慢速代理是第二个被优化的。此外,还引入了任务规划器来处理复杂任务。这些组件共同使 RL-GPT 能够处理复杂任务,并提供高效的任务学习。

整体框架由慢速代理(橙色)和快速代理(绿色)组成。 慢速代理分解任务并决定 "学习哪些行动"。 快速代理为底层执行创建代码和 RL 配置。

试验

首先,研究中使用的环境是一个名为 MineDojo 的框架,这是一个用于在 Minecraft 游戏中设置各种任务(包括砍树或创建物品等长期任务)的开创性框架。它包括然后介绍了研究中采用的方法:该方法名为 RL-GPT,使用一种名为 GPT-4 的人工智能模型。该方法采用了近程策略优化(PPO),即从与环境的交互中采样数据,并使用随机梯度上升法来优化代理策略。

主要结果表明,RL-GPT 方法的性能优于其他基线方法。

在 MineDojo 任务中,RL-GPT 的成功率最高。

这就是 Minecraft 中 "获取钻石 "任务的主要成果。 该任务的现有强基准需要专家数据(VPT、DEPS)、手工制定的子任务策略(DEPSOracle)或大量的环境训练步骤(DreamerV3、VPT)。 我们的方法只需少量的人工前期工作就能自动分解和训练子任务,并能以出色的样本效率获取钻石。

与 DreamerV3、VPT、DEPS 和 Plan4MC 等现有方法进行比较后发现,RL-GPT 的成功率超过 8%。

它展示了不同的代理如何学习如何收集日志。更详细地看这个过程,RL-GPT 首先尝试编码与日志收集有关的所有操作,但第一次迭代的成功率为 0%。然后,RL-GPT 选择一个以树为目标的行动,对其攻击 20 次,然后执行。然而,事实证明找到这棵树对 LLM 来说太难了,于是指令代理选择更精细的行动。最终,RL-GPT 通过编码导航和攻击的组合找到了正确的解决方案,并在随后的迭代中表现得更好。这展示了 RL-GPT 有效学习任务并提高成功率的过程。

此外,研究还讨论了为什么 RL-GPT 在 Minecraft 中的一系列任务中表现出色,以及未来的应用。这表明,这项研究不仅可以应用于游戏中的人工智能训练,还可以应用于现实世界中的问题。

结论

这项研究提出了 RL-GPT,一种结合大规模语言建模(LLM)和强化学习(RL)的新方法。RL-GPT 将任务分为高水平的编码和低水平的基于 RL 的行动,使传统的 RL 方法和现有的 GPT agents比传统 RL 方法和现有 GPT 代理显示出更好的效率。因此,在 Minecraft 等高难度任务中表现出色。

RL-GPT 的未来前景包括更广泛的应用。例如,该方法可用于解决其他游戏和现实世界中的问题。此外,随着 RL-GPT 的改进和新应用方法的开发,它还可用于更复杂的任务。

 
  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们