GLAM：作为强化学习代理的 LLM。

大型语言模型 19/09/2023

三个要点
✔️ 将大规模语言模型视为强化学习的一种策略，并学习额外的语言模型
✔️ 开发一种环境和提示，用语言来表示强化学习任务
✔️ 研究发现，使用大规模语言模型进行强化学习可以提高样本效率和泛化性能。

Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning
written by Thomas Carta, Clément Romac, Thomas Wolf, Sylvain Lamprier, Olivier Sigaud, Pierre-Yves Oudeyer
(Submitted on 6 Feb 2023 (v1), revised 12 May 2023 (this version, v2), latest version 6 Sep 2023 (v3))
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

导言

近来，基于 Transformer 的大型语言模型（LLMs）明显表现出多种能力。其中，已经证明 LLMs 能够捕捉我们人类所处世界的一些物理规律。例如，它们已被证明具有关于空间和身体-物体承受能力的先验知识。

但也有人说，它在立足现实世界方面存在缺陷，因此无法在环境中理解概念和恰当地使用知识。

相比之下，有三种可能的原因

(1) 基于 LLM 下一个词预测的训练过程与环境中的问题解决没有直接关系
(2) 缺乏与环境合作以识别因果结构的能力
(3) 缺乏从与环境互动后收集的数据中学习的能力。

本研究探讨了 LLM 是否可用作强化学习的策略这一问题。我们研究了代理（LLMs）在与环境互动的过程中，能否根据新的观察结果，适当地建立自己的知识基础。

具体来说，实验部分主要研究以下问题

问题 1：样本效率
LLM 在自然语言引导的空间导航问题上的适应和学习速度如何？

问题 2：对新物体的泛化能力
在训练任务中，我们能否表现出对新物体的泛化能力？

问题 3：对新任务的归纳
是否可以用零投篮来归纳新任务？

技术

本文提出了一种名为 GLAM（Grounded LAnguage Models）的方法。

它将 LLM 作为强化学习代理的一种策略，利用在线强化学习（即符号运算的内部处理建模、预测和控制物理外部处理）在代理与环境的互动中实现功能基础，并根据观察和奖励信息实现语言描述的目标。该方法旨在根据观察和奖励信息，实现语言描述的目标。这种方法的全貌如下图所示。

解决问题

我们使用了一种名为 "BabyAI-Text "的环境，它是对 BabyAI [Chevalier-Boisvert 等人，2019] 平台的一种修改，可以仅使用文本表示。该环境是一个微型网格世界（上图中的黑色矩形表示），代理可以在其中移动并与物体进行交互，有六个命令指令：向左转、向右转、向前走、拿起、放下和切换。指令命令分别是向左转、向右转、向前走、拿起、放下和切换。

计算选择行动概率的方法

设 $p$ 为提示语，并根据以下公式计算单词系列 $a_i = {w_0, ..., w_{|a_i|} }$ 代表一个动作的概率

这一对数是为每个行动计算的，并且

软最大化的结果被用作每个动作的选择概率。

利用 PPO 进行微调

由于 PPO 是一种行为批判强化学习算法，它需要一个价值函数网络。因此，在 LLM 模型的第一个解码器模块层中添加了一个价值函数头。在这种设置下，LLM 在 BabyAI-Text 环境中进行了微调。

试验

GLAM 被应用于大规模语言模型，即预训练的 Flan-T5 780M [Rae 等人，2021 年]，以进行微调并与其他基线模型进行比较。

提议的方法以 GFlan-T5 表示，其他基线方法包括 NPAE-Flan-T5（无预训练版本）、DRRN（普通强化学习方法）和 Symbolic-PPO（在 BabyAI 环境中使用符号观察信息训练的 PPO 代理）。不使用 BabyAI 文本语言信息）。

在每个步骤中，为代理输入以下提示信息

表示可能采取的行动的句子：
代理人可能采取的行动：<行动清单>。

表明代理人目标的句子：
代理人的目标：<goal>（目标

显示最后三个步骤的观察结果和两个步骤的行动的文本
Obs. 0: <description from BabyAI-Text at step t-2 >
Action 0: <action chosen by the agent at step t-2 >
Obs. 1: <description from BabyAI-Text at step t-1 >
Action 1: <action chosen by the agent at step t-1 >
Obs. 2: <description from BabyAI-Text at step t > Action 2: <action chosen by the agent at step t-1 > Obs.步骤 t >
行动 2：<代理选择的下一个行动>。