我想在随机环境下运行决策转换器！

RvS 05/10/2023

三个要点
✔️ 提出在随机环境中成功实现 RvS 所需的信息统计属性
✔️ 提出一种估算上述信息统计的算法 ESPER
✔️ 在 2048 等随机环境中实现超越现有 RvS 方法、决策转换器的性能

You Can't Count on Luck: Why Decision Transformers and RvS Fail in Stochastic Environments
written by Keiran Paster, Sheila McIlraith, Jimmy Ba
(Submitted on 31 May 2022 (v1), last revised 28 Nov 2022 (this version, v2))
Comments: Added experiments with Decision Transformers; Fixed error in Theorem 2.1; Updated related works; Added link for code
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

导言

最近，一个名为 "通过监督学习的强化学习（RvS）"的框架引起了广泛关注。该框架通过使用生成模型（如变形金刚）解决轨迹和奖励条件下的行动预测任务（监督学习）来解决强化学习问题。被称为 "通过监督学习的强化学习（RvS）"的框架备受关注。现有的 RvS 方法旨在通过在训练时提供整个轨迹的奖励作为输入来预测行为，从而使模型学习整个轨迹的奖励与行为之间的关系，然后在运行时提供更高的奖励，从而实现高性能。在本文中，我们证明了当环境是随机的时候，简单地以轨迹奖励为条件并不能学习出高性能的代理，并提出了一个解决这个问题的方案--ESPER。

决策变压器和 RvS

在本章中，我们首先介绍 RvS 的一种典型方法--决策转换器，然后将 RvS 表述为对决策转换器的概括。我们将整理强化学习的基本符号。强化学习是用马尔可夫决策过程来表述的。马尔可夫决策过程由状态集$S$、行动集$A$、转换概率$T$、奖励函数$r$和贴现率$\gamma$组成。在强化学习中，目标是学习一个行动策略 $\pi$，使累计贴现收益最大化，即 $\sum_{t} \gamma^t r_t$（以下简称收益）。一个事件中的状态、行动和回报的历史称为轨迹，用 $\tau = (s_0, a_0, r_0, \dots)$ 表示。决策转换器从给定的交互数据 $D = \{\tau_i\}_{i=1}^N$中学习策略，方法是使用转换器按以下形式建模。

$$\pi(a_t|s_0, a_0, \dots, s_t, \hat{R}) = p_D(a_t|s_0, a_0, \dots, s_t, \hat{R})$$

其中 $p_D$ 是根据数据得出的分布。其中，$\hat{R}$ 是轨迹的返回值。在每个时间 $t$，策略是通过解决行为的最大似然估计问题来学习的，条件是之前的状态、行动序列和回报。将其与语言任务中转换器对下一个单词的预测进行对比，就很容易理解了。转换器学习语言用法的方法是根据前一个单词预测最有可能出现的下一个单词。而 "决定 "转换器则是通过预测数据中最有可能出现的行动来学习回报与行动之间的关系，条件是之前的状态行动历史和整个轨迹的回报。

这可以概括如下。首先，考虑根据轨道（$\tau$）确定的信息统计量 $I(\tau)$。这就像是轨道的得分，而 $I(\tau)$ 是决策变换器中的返回值。然后，我们考虑一个衡量信息统计之间距离的指数 $D$。这就是决策变换器中的条件似然。引入这个要素后，RvS 就可以表述为一个学习问题，即在给定由数据确定的信息统计量 $z$ 分布的情况下，学习 $\pi$，从而得到使 $z$ 与 $I(\tau)$ 之间的距离 $D$ 最小的轨迹 $\tau$。我认为这很难用语言来理解，所以我将展示如何表述它。

$$\min_\pi \mathbb{E}_{z\sim p(z), \tau \sim p_{\pi_z}[D(I(\tau), z)]}$$

论文指出，在随机环境中，以 $I(\tau)$ 为回报求解上述问题 "不会导致成功的学习"，并阐明了随机环境中所需的 $I(\tau)$ 的属性。

随机环境中的 RvS

为什么正常的 RvS 会失败？

为什么 RvS 不能用于随机环境中以收益为条件的度量？直观地说，这是因为无法确定所获得的收益是行动的结果还是随机转换的结果。让我们看一下上面的 MDP 例子[图 1]。上面的过渡图显示了数据的分布。考虑奖励 $r=1$，当采取 $a_1$ 时，有 50% 的时间会获得奖励，而当采取 $a_2$ 时，有 100% 的时间会获得奖励。我们可以看到，对 $a_2$ 来说，这种奖励是行动的直接结果，而对 $a_1$ 来说，这种奖励是通过随机转换获得的。假设我们学习了关于这些数据的条件分布。将学习到的分布以 $r=1$ 为条件，我们会发现 $a_1，a_2$ 都有概率值。最优行为是 $a_2$，但即使我们指定 $r=1$ 来获得它，$a_1$ 也会取到一定的概率值。这可以归因于在训练中使用了收益，一种无法区分随机转换结果和行动结果的统计量。

环境随机性和独立统计

在本节中，我们将从理论上分析 RvS 在随机环境中取得成功的必要条件。首先，成功学习的定义如下。

定义 2.1 （持续可实现）。如果$\mathbb{E}_{\tau \sim p_\{pi_z}(\tau|s_0)}[D(I(\tau), z)] = 0$，那么在$\pi(a|s, z)$策略下，目标$z$是可以从状态$s_0$持续实现的。

换句话说，成功的学习意味着，当学习的策略以某个统计量值$z$为条件时，所产生的轨迹$\tau$与预期指定的$z$达到了相同的统计量$I(\tau)$。如果用收益故事来代替，则表示所学策略实现了预期指定收益。在此基础上，下面的定理说明了成功学习所必需的统计量属性。

定理 2.1. 设 $\pi_D$ 是用于收集数据以训练 RvS 策略的数据收集策略，并假设该策略经过训练后使得 $\pi(a_t|s_0, a_0, \dots, s_t, z) = p_{\pi_D}(a_t|s_0, a_0, \dots, s_t, I(\tau)=z)$. 那么，对于任意目标 z，如果$p_{pi_D}(I(\tau)=z|s_0)>0$，那么目标$z$是 可以持续实现 的，如果$p_{pi_D}(s_t|s_0, a_0, \dots, a_{t-1}) = p_{\pi_D}(s_t|s_0, a_0, \dots, a_{t-1}, I(\tau))$.

该定理要求的条件是统计量 $I(\tau)$ 与环境的随机性无关。也就是说，统计量不包含环境随机性的信息。如果我们能构建这样一个统计量，我们就可以使用现有的 RvS 方法（如决策变换器）来学习随机环境中的度量。

技术

在这里，我们介绍一种被称为ESPER（环境随机独立表示）的方法，它可以学习与环境动态无关的统计量$I(\tau)$。 ESPER首先通过对抗聚类学习统计量$I(\tau)$的表示。然后，通过统计量创建聚类，并计算每个聚类的平均收益。最后，利用回报率执行通常的 RvS [图 2]。

敌对集群

对抗性聚类通过学习与动态估计相关的对抗性 $I(\tau)$ 来鼓励 $I(\tau)$ 变得独立于动态。首先，这里是需要训练的模型

聚类模型：$I(\tau) \sim p_{\theta}(I(\tau)|\tau)$
行动预测器： $a_t \sim p_\theta(a_t|s_t, I(\tau))$
返回预测器：$\hat{R}=f_{\psi}(I(\tau))$
过渡预测器： $s_{t+1} \sim p_{\phi}(s_{t+1}|s_0, a_0, \dots, s_t, a_t, I(\tau))$

目标函数如下

$$L(\theta) = \mathbb{E}_{I(\tau)\sim p_\theta(I(\tau)|\tau)}left[-\underbrace{beta_{\mathrm{act}}（log p_{theta}(a_t|s_t, I(\tau)))}{Predict the action} + \underbrace{beta_{\mathrm{adv}}} \log p_{\phi}(s_{t+1}|s_0, a_0, \dots, s_t, a_t, I(\tau))}{Require the dynamics to be adversarial to the prediction}\right]$$

$$L(\phi) = \mathbb{E}_{I(\tau)\sim p_\theta(I(\tau)|\tau)}left[\underbrace{- \log p_{\phi}(s_{t+1}|s_0, a_0, \dots, s_t, a_t, I(\tau))}_{预测动态}/right]$$

我们将看到，收益估算模型需要对动态估算具有对抗性，同时有助于行为预测。

群组平均收益估算

接下来，使用所学统计量的表示模型 $p_\theta(I(\tau)|\tau)$，轨迹的回报由 $f_{\psi}(\tau)$ 估算。这样就可以用 $f_{\psi}(\tau)|\tau)$ 中的统计量来估计轨迹的平均回报。一旦估算出回报率，我们就可以使用估算出的 $p_{\theta}(I(\tau)|\tau)$ 和 $f_{\psi}(\tau)$ 来获得数据中每条轨迹 $\tau$ 在使用统计量 $I(\tau)$ 聚类时的平均回报率的估算，这与概率的随机性无关。我们可以得到平均收益的估计值。

$$L(\psi) = \mathbb{E}_{I(\tau)\sim p_\theta(I(\tau)|\tau)}left[||R - f_{\psi}(I(\tau))|_2^2\right]$$

RvS

最后，我们以上述聚类的平均收益率为条件因子，进行常规的 RvS 分析。

试验

本研究的实验涵盖以下三种包含随机动力学的环境

基准

赌博：上述三种环境下的行为。
四连棋：与随机对手进行四人平局。获胜奖励 1，否则奖励 0。
2048：这是一款益智游戏，其中的瓷砖值和位置都是概率决定的。游戏的目的是通过反复上下左右滑动来拼出 2048 块瓷砖。在本实验中，我们简化了游戏环境，假设如果玩家能拼出 128 块瓷砖，奖励就是 1，否则就是 0。

底线

返回条件式 RvS (DT)：传统的返回条件式决策变压器。
CQL：基于值函数的离线强化学习方法。

结果

从图 3 中可以看出，ESPER 不仅比返回条件 RvS（DT）更具优势，而且比 CQL 也更具优势。实验结果证实，在随机环境下，正常回报率的 RvS 性能较低，而 ESPER 能显著提高性能，结合前面的分析，ESPER 在理论上和实验上都显示了其有效性。

摘要

结果如何？我们发表了一篇论文，提出了一种在概率环境中工作的 RvS 方法 ESPER。 RvS 非常适合大规模数据，目前正在积极研究中。 ESPER有望在现实世界中得到应用，因为它可以将RvS应用于现实世界中由于噪声和其他因素而无法确定性估计转换的问题。请继续关注 RvS 的研究动向。

与本文相关的类别

Kodama