
GLAM:作为强化学习代理的 LLM。
三个要点
✔️ 将大规模语言模型视为强化学习的一种策略,并学习额外的语言模型
✔️ 开发一种环境和提示,用语言来表示强化学习任务
✔️ 研究发现,使用大规模语言模型进行强化学习可以提高样本效率和泛化性能。
Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning
written by Thomas Carta, Clément Romac, Thomas Wolf, Sylvain Lamprier, Olivier Sigaud, Pierre-Yves Oudeyer
(Submitted on 6 Feb 2023 (v1), revised 12 May 2023 (this version, v2), latest version 6 Sep 2023 (v3))
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
导言
近来,基于 Transformer 的大型语言模型(LLMs)明显表现出多种能力。其中,已经证明 LLMs 能够捕捉我们人类所处世界的一些物理规律。例如,它们已被证明具有关于空间和身体-物体承受能力的先验知识。
但也有人说,它在立足现实世界方面存在缺陷,因此无法在环境中理解概念和恰当地使用知识。
相比之下,有三种可能的原因
(1) 基于 LLM 下一个词预测的训练过程与环境中的问题解决没有直接关系
(2) 缺乏与环境合作以识别因果结构的能力
(3) 缺乏从与环境互动后收集的数据中学习的能力。
本研究探讨了 LLM 是否可用作强化学习的策略这一问题。我们研究了代理(LLMs)在与环境互动的过程中,能否根据新的观察结果,适当地建立自己的知识基础。
具体来说,实验部分主要研究以下问题
问题 1:样本效率
LLM 在自然语言引导的空间导航问题上的适应和学习速度如何?
问题 2:对新物体的泛化能力
在训练任务中,我们能否表现出对新物体的泛化能力?
问题 3:对新任务的归纳
是否可以用零投篮来归纳新任务?
技术
本文提出了一种名为 GLAM(Grounded LAnguage Models)的方法。
它将 LLM 作为强化学习代理的一种策略,利用在线强化学习(即符号运算的内部处理建模、预测和控制物理外部处理)在代理与环境的互动中实现功能基础,并根据观察和奖励信息实现语言描述的目标。该方法旨在根据观察和奖励信息,实现语言描述的目标。这种方法的全貌如下图所示。
解决问题
我们使用了一种名为 "BabyAI-Text "的环境,它是对 BabyAI [Chevalier-Boisvert 等人,2019] 平台的一种修改,可以仅使用文本表示。该环境是一个微型网格世界(上图中的黑色矩形表示),代理可以在其中移动并与物体进行交互,有六个命令指令:向左转、向右转、向前走、拿起、放下和切换。指令命令分别是向左转、向右转、向前走、拿起、放下和切换。
计算选择行动概率的方法
设 $p$ 为提示语,并根据以下公式计算单词系列 $a_i = {w_0, ..., w_{|a_i|} }$ 代表一个动作的概率
这一对数是为每个行动计算的,并且
软最大化的结果被用作每个动作的选择概率。
利用 PPO 进行微调
由于 PPO 是一种行为批判强化学习算法,它需要一个价值函数网络。因此,在 LLM 模型的第一个解码器模块层中添加了一个价值函数头。在这种设置下,LLM 在 BabyAI-Text 环境中进行了微调。
试验
GLAM 被应用于大规模语言模型,即预训练的 Flan-T5 780M [Rae 等人,2021 年],以进行微调并与其他基线模型进行比较。
提议的方法以 GFlan-T5 表示,其他基线方法包括 NPAE-Flan-T5(无预训练版本)、DRRN(普通强化学习方法)和 Symbolic-PPO(在 BabyAI 环境中使用符号观察信息训练的 PPO 代理)。不使用 BabyAI 文本语言信息)。
在每个步骤中,为代理输入以下提示信息
表示可能采取的行动的句子:
代理人可能采取的行动:<行动清单>。
表明代理人目标的句子:
代理人的目标:<goal>(目标
显示最后三个步骤的观察结果和两个步骤的行动的文本
Obs. 0: <description from BabyAI-Text at step t-2 >
Action 0: <action chosen by the agent at step t-2 >
Obs. 1: <description from BabyAI-Text at step t-1 >
Action 1: <action chosen by the agent at step t-1 >
Obs. 2: <description from BabyAI-Text at step t > Action 2: <action chosen by the agent at step t-1 > Obs.步骤 t >
行动 2:<代理选择的下一个行动>。
结果
问题 1:样本效率
为了了解 LLM 代理在解决任务时的适应速度,我们对它们进行了 150 万步的训练。每一集的目标都是从以下多种模式中随机设定的
前往<对象>:前往指定对象的任务
拾取<对象>:拾取指定对象的任务
放起<对象 A>然后前往<对象 B>或前往<对象 B拾起 <对象 A> 后 >:依次执行拾起和前往对象操作的任务
开锁 <门>:使用钥匙开门的任务
下图显示了四类代理在这项任务中的成功率。
这表明,只有建议的 GFlan-T5 方法能立即适应任务。
与 NPAE-Flan-T5 的比较表明,GFlan-T5 能够有效利用 LLM 预训练中的知识,并通过微调使其能够掌握对象概念。
与 Symbolic-PPO 的比较表明,语言信息对这一任务的学习有很大帮助。
总之,研究结果表明,LLM 在预训练中获得的语言先验知识在微调后提高了它们在强化学习任务中的表现。
问题 2:对新对象的概括
研究在 BabyAI-Text 环境中进行微调的 LLM 代理能否处理在微调过程中未看到的新对象。
结果与下表中的(b)和(c)相对应。
分别是:(b) 重命名对象时;(c) 使用创建的新对象时。
在这两种情况下,GFlan-T5 都表现出很高的性能,表明它能够获取成功代表环境结构和指令的符号。
问题 3:新任务的通用性
我们考察了他们在以下情况下完成任务的能力:(d) 目标任务的顺序发生变化;(e) 动作的表达方式被同义词取代;(f) 使用的语言被另一种语言(法语)取代。
这些结果与上一幅图像中的(d)、(e)和(f)相对应,在所有情况下,GFlan-T5 的表现都不是很好。似乎很难将其推广到新任务中。
摘要
本文提出了一种名为 "GLAM "的方法,并表明通过微调针对 RL 任务的预训练 LLM,可以将环境动态映射到语言符号上。
该研究的局限性在于所使用的环境是语言可描述的,行为空间的大小和 LLM 模型也面临挑战,但这些问题都将在今后的研究中得到克服。
与本文相关的类别