利用 LLM 成功生成各种机器人行为。

大型语言模型 11/09/2023

三个要点
✔️ 使用 LLM 的低级机器人控制器无需重新学习
✔️ LLM 输出奖励函数，而不是向机器人发出控制指令
✔️ 两个阶段：描述期望行为和输出奖励函数

Language to Rewards for Robotic Skill Synthesis
written by Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia
(Submitted on 14 Jun 2023 (v1), last revised 16 Jun 2023 (this version, v2))
Comments: this https URL
Subjects: Robotics (cs.RO); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

最近，大规模语言模型（LLMs）（如 ChatGPT）非常活跃，人们正在考虑将其应用于各个领域。机器人就是其中的一个目标，利用 LLMs 生成机器人行为的研究也一直在积极进行：通过引入 LLMs，已经实现了机器人控制中的各种任务，但迄今为止的研究主要集中在将预先设计或学习的基本行为（如四足机器人匀速行走）用语言来组合它们，而侧重于生成新的构造行为。另一方面，即使给定了机器人的行为知识，LLM 也很难直接输出机器人控制输入，即生成基本行为。然而，由于机器人基本行为的设计需要专业知识和大量工作，因此使用 LLM 生成基本行为是可取的。在本文介绍的论文中，通过引入一定的独创性，无需额外学习等，现有的类似 ChatGPT 的 LLM 就能成功地熟练控制机器人。

原始论文的作者有一个网站，在那里您可以看到机器人的动作和概念图。

建议方法

本文的研究方法有两个要点。

奖励界面

首先，它输出的是奖励函数，而不是控制输入。其背景是，LLM 很难直接生成控制指令，从而实现机器人的基本行为。因此，作者采用了一种方法，让 LLM 生成作为行为来源的奖励函数，而不是让它生成控制指令。我们的想法是，"指导行为 "和 "生成控制指令 "之间的差距可以通过 "奖励函数 "来弥补。这就是我们的想法。下图清楚地说明了这一概念。

奖励翻译员

第二点是奖励函数的输出方法。并不是简单地用一种语言指示一种行为就能产生最佳奖励函数。特别是，行为越复杂，奖励函数的生成就越困难。因此，本研究采用了一个两阶段框架，即先给 LLM 一个行为的详细描述，然后输出与该描述相对应的奖励函数。这一想法基于两个发现：LLM 可以很容易地输出简单行为的奖励函数，而且可以将复杂行为与简单行为分开描述。也可以说，奖励函数与复杂行为的描述是兼容的，因为它是每个奖励项的线性和，如下图所示。

运动控制器

MPC 是一种优化方法，它可以预测有限时间的未来，并确定在预测未来之前使奖励函数总和最大化（最小化）的控制输入。MPC 是一种优化方法，它预测有限的未来，并确定在预测的未来之前使奖励函数总和最大化（最小化）的控制输入。与强化学习方法相比，MPC 无需学习，因此结果易于检查，而且相对稳健。

试验

仿真

在模拟实验中，两个四足机器人和一个机械手被用来执行各种任务，如下图所示。针对这些任务，我们对两种方法进行了比较。奖励编码器直接输出奖励函数，而不对行为进行描述；而 "代码即策略 "则通过结合简单的预习行为来生成行为。下图显示的结果表明，与基线方法相比，该系统能够生成种类繁多的行为。

正如您在这段视频中看到的，最与众不同的可能就是让四足机器人进行月球漫步。在听到 "机器狗，来个月球漫步 "的口令后，机器人居然能做出月球漫步的动作。

野外实验

此外，还进行了使用机械臂操纵物体的真实世界实验。真实机器的性能有限，有时很难达到模拟器中的速度。因此，在奖励函数中加入了与机械臂速度相关的惩罚项。此外，通过结合摄像头图像和激光雷达的深度信息来准确估算物体的位置信息，可以在真实机器上实现举起苹果或魔方等动作。

摘要

在对目标行为进行描述之后，奖励函数的输出框架已经建立，这使得 LLM 能够获得一个低级控制器。奖励函数设计是人类根据专业知识和其他因素勉强完成的部分，而通过自然语言自动完成这部分工作似乎很有吸引力。

至于未来的扩展，论文中提到了三点：第一，为行为描述提供模板。目前的情况并不是 LLM 可以自动描述好的行为，而是给出一个好的模板（提示），然后根据它来描述行为。自动设计这些模板是一个方向；第二点是很难生成无法用语言轻松描述的行为（如 "优雅地行走"）。一个可行的解决方案是建立一个可以接受多模态输入的系统，例如通过播放行为视频。最后，LLM 可以自动确定奖励项的权重和参数，而奖励项则由人工预先设定。这使系统更加稳定，但也牺牲了一定的灵活性。他说，在确保稳定性的同时，从头开始设计奖励函数的能力是一个重要的研究方向。