维基百科能帮助离线强化学习吗？将语言任务的预训练引入离线强化学习！

离线强化学习 11/10/2023

三个要点
✔️ 为了解决离线强化学习中收集大数据集的困难，我们提出了在不同领域的语言任务上进行预训练的方法
✔️ 我们提出了一种在离线强化学习过程中转移在语言任务上预训练的模型性能的技术
✔️ 实验结果表明，现有技术在收敛速度和性能方面均优于现有方法。在收敛速度和性能方面优于现有方法。

Can Wikipedia Help Offline Reinforcement Learning?
writtenby Machel Reid, Yutaro Yamada, Shixiang Shane Gu
(Submitted on 28 Jan 2022 (v1), last revised 24 Jul 2022 (this version, v3))
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

背景

近年来，离线强化学习框架（如 Decision Transformer）取得了成功，它将强化学习作为序列建模任务，并通过具有自回归机制的模型来实现测量。另一方面，这些方法在从头开始训练时收敛速度较慢。在本文中，我们开发了一种预训练序列模型的方法，用于不同领域的后续强化学习，如语言和视觉任务，并对其有效性进行了实验测试。

技术

首先，我们将强化学习的基本要素描述为序列建模。我们假定状态、行动和未来回报的 $t$ 序列（下文称为轨迹）作为数据给出。

$$t = (\hat{R}_1, s_1, a_1, \dots, \hat{R}_N, s_N, a_N)$$
其中，$s_i, a_i$ 是时间 $i$ 时的状态和行动，$\hat{R}_i$ 是 $\hat{R}_i = \sum_{t=i}^{N}r_t$。如果我们把每个时间段的 $s_i、a_i 和 ${hat{R}_i$ 都看作是标记，我们就可以看到同样的框架也可以用来训练语言模型。
本文的目的是在语言和视觉任务等与强化学习领域不同的问题上对 Transformer 进行预训练[图 1]。他们认为语言和视觉任务的表征与强化学习获得的表征之间存在分歧，并提出了两种技术来消除预训练获得的表征向量与强化学习获得的表征向量之间的分歧。

1. 语言表征与离线 RL 表征之间的相似性损失

让 $V$ 作为预训练变换器的词汇量，让 $E_1, \dots, E_j, \dots, E_V, \quad \forall j, E_j \in \mathbb{R}^d$ 作为各自的嵌入向量。让 $I_1, \dots, I_i, \dots, I_{3N}, \quad \forall i, I_i \in \mathbb{R}^d$ 是一个表示向量，状态、行动和未来收益分别嵌入每个序列中。引入以下损失，使离线强化学习的表示向量 $I_1, \dots, I_{3N}$ 接近已经得到的语言的表示向量。

$$\mathcal{L}_{mathrm{cos}} = - \sum_{i=0}^{N} \max_j \mathcal{C}(I_i, E_j)$$$

其中 $mathcal{C}$ 是余弦距离。通过这种损失，我们希望确保在强化学习中获得的表征不会偏离在语言任务中获得的表征，并帮助 Transformer 作为一个顺序模型发挥其性能，因为 Transformer 在预训练中已经取得了很高的性能。

2. 语言模型联合训练

在本文中，我们还在离线强化学习阶段继续学习语言任务。通过这种方法，我们希望在离线强化学习阶段能更直接地从语言任务等连续建模任务中获益。最终目标函数如下
$$\mathcal{L} = \mathcal{L}_{\mathrm{MSE}} + \lambda_1 \mathcal{L}_{\mathrm{cos}} + \lambda_2 \mathcal{L}_{\mathrm{LM}}$$
其中，$\mathcal{L}_{mathrm{MSE}}$$ 是使用变换器（如决策变换器）进行离线强化学习的损失函数，$\mathcal{L}_{mathrm{LM}}$$ 是语言任务的损失，以及$\lambda_1, \lambda_2$ 是超参数。

实验装置

本实验的设置如下。在本实验中，将使用离线强化学习基准测试预训练在语言和图像识别任务上的有效性。下面简要介绍了用于预训练的模型、要比较的强化学习基准和用于测试性能的任务。

预习模式

语言任务：1.GPT-2-small 2.为了与 Decision Transformer 进行公平比较，Transformer 在维基百科-103 数据集上训练了一个参数数量相同的模型。他们称之为 ChibiT（小语言模型）。
图像识别任务：1.CLIP（对比语言-图像预训练）。 CLIP 由一个文本编码器和一个图像解码器组成，这些模型经过训练可预测标题和图像之间的匹配。每个编码器都由一个转换器（Transformer）组成。 ImageGPT：ImageGPT 的结构与 GPT 相同，由像素预测任务而非语言任务进行训练。

强化学习基线

作为强化学习的基线，本研究中使用了决策转换器（DT）（使用转换器而无需事先学习），以及不使用转换器的离线强化学习方法 CQL、TD3-BC、BRAC 和 AWR。

工作

在本实验中，使用专门用于离线强化学习的数据集 D4RL，分别针对 Atari 和 Open AI Gym Mujoco 对模型进行了评估。 D4RL 为每项任务提供了数据，这些数据是通过不同的行动质量衡量标准收集的。

Atari 任务：使用四款游戏--Breakout、Qbert、Pong 和 Seaquest，并与基准模型进行比较。
OpenAI 健身房任务：在 HalfCheetah、Walker2d 和 Hopper任务中训练和评估模型。

结果和分析

从图 2 中可以看出，经过语言任务预训练的 ChibiT 和 GPT2 比未经过预训练的 DT 表现出更高的性能。从图 2 中还可以看出，与离线强化学习方法 CQL 和 TD3-BC 相比，它们取得了相同甚至更高的性能。从这些结果可以看出，使用语言任务进行预训练是有效的，首先在性能方面。下面是更详细的分析说明。

收敛速度

他们比较了未经过预训练的 DT 与经过语言任务预训练的模型的收敛速度。这里，收敛的定义是平均收益和最大收益之差在两个归一化分数之内。从图 3 中可以看出，经过语言任务预训练的 ChibiT 和 GPT2 模型的收敛速度是 DT 的两倍多。

视觉与语言

图 2 显示，经过图像识别任务预训练的 CLIP 和 iGPT 的表现都不如经过语言任务预训练的模型。尤其是只在图像识别任务中进行了预训练的 iGPT，其性能明显较低。作者将此归因于语言建模和轨迹重塑之间的基本相似性，并通过可视化的注意力机制模式来验证这一假设。 [图 4]。从图 4 中可以看出，iGPT 注意力模式与 DT 注意力模式明显不同，可解释性也较差。结合这些额外的实验，我们认为在强化学习中，语言任务作为变形器的预训练任务更有益处