Jump-Start RL：通过预先学习的策略 "引导 "搜索，从而简化搜索！

离线预培训和在线微调 05/10/2023

三个要点
✔️ 提出了利用预学习策略进行高效搜索的框架--Jump-Start RL
✔️ 通过理论分析，分析了预学习策略对性能的依赖性
✔️ 实验证实结果优于现有方法

Jump-Start Reinforcement Learning
writtenby Ikechukwu Uchendu,Ted Xiao,Yao Lu,Banghua Zhu,Mengyuan Yan,Joséphine Simon,Matthew Bennice,Chuyuan Fu,Cong Ma,Jiantao Jiao,Sergey Levine,Karol Hausman
(Submitted on 5 Apr 2022 (v1), last revised 7 Jul 2023 (this version, v2))
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

背景

强化学习（RL）是一种通过与环境互动，反复试验和出错来学习最佳行为策略的框架。然而，众所周知，要从头开始学习最佳策略，需要大量的交互样本。这对于需要在大型状态和行动空间中进行大规模搜索的问题来说尤其如此。为了应对这类问题，通过使用预训练的度量和价值函数来提高学习效率的方法备受关注。这种方法的理念是通过使用 "具有良好性能的策略和价值函数 "作为初始值，减少学习所需的交互次数。

现有研究和问题

模仿学习 + RL

该方法通过模仿学习从与给定环境交互的数据 $D=\{s_i, a_i, r_i, s'_i\}_{i=1}^n$ 中学习策略 $/pi$，然后使用学习到的策略 $/pi$作为初始策略执行强化学习。为了使用基于值的强化学习方法，不仅需要策略，还需要所学策略的值函数作为初始值，因此开发了一些方法来解决这个问题，这些方法不仅包括先前学习的策略 $\pi$，还包括重放缓冲区中用于学习 $D$ 的数据。

离线强化学习 + RL

为了改善与基于价值的强化学习方法之间的联系，我们提出了一种用离线强化学习进行预训练的方法，这种方法不仅能估算测量值，还能估算离线数据 $D$ 的价值函数。

总之，我们发现现有的方法在使用基于值的强化学习方法进行微调时需要使用离线数据，或者在预训练期间使用离线强化学习来学习值函数。通过采用不同的方法，本研究为高效强化学习开发了一个灵活的框架。这项研究的理念可以简单地解释为 "通过给定的策略引导用户前进，从而 提高搜索效率"。通过重复让专家玩游戏的循环，直到游戏结束并从头开始，可以提高搜索效率，因为只有具有一定价值的街区才能被探索。只要在环境中是可行的，预训练措施就不需要像神经网络那样进行参数化。当然，之后使用的强化学习方法也是任意的，不需要像现有方法那样，为使用基于价值的方法而专门设计。

只要求采取措施，无论这些措施采取何种形式。
后续的强化学习方法是可选的。

而且比现有方法更加灵活。

技术

ponti-diagram — 图 1 JSRL 的概念图。指导策略将用户 "带入 "一定的良好状态，以实现高效探索。课程是通过调整指导策略的长度，逐渐延长搜索策略所负责的范围而生成的。

利用两类措施进行高效强化学习

这项研究的基本思路是 "通过给定的策略引导我们前进，从而提高搜索效率"。下文将详细解释这一想法。下文将详细解释这一想法。

我们考虑了两种测量方法：一种是固定的指导策略，即 $\pi^g(a|s)$；另一种是使用强化学习算法进行优化的搜索策略，即 $\pi^e(a|s)$。我们方法的核心思想是依次使用 $\pi^g$ 和 $\pi^e$ 来简化复杂任务的学习过程。在训练的早期阶段，我们希望使用 $\pi^g$ 来收集数据，因为 $\pi^g$ 比未经训练的 $\pi^e$ 要好得多。 首先，$\pi^g$ 会将代理引向 "好 "的状态，然后$\pi^e$ 会从这些状态开始探索[图 1]。 然而，$\pi^g$收集到的数据分布与$\pi^e$收集到的数据分布不同，导致学习过程中数据分布发生偏移。为了解决这个问题，他们提出了一种基于课程的方法，即数据收集从 $\pi^g$ 逐步转移到 $\pi^e$ 。随着 $\pi^e$ 的逐步提高，指导长度也随之改变，以消除分布偏移。他们提出了两种生成课程的方法，一种是逐渐缩短指导策略收集数据的时间跨度，另一种是随机确定指导策略，并在实验中进行比较。

算法

现在，我们来介绍体现上述流程的跳转启动 RL（JSRL）算法。让 $H$ 成为整体水平线。首先，我们生成一个时序序列（课程表）（$H_1, \dots, H_n$），用于在引导策略和搜索策略之间切换。在每个迭代 $i$，让 $h=H_i$。前 $H$ 步用引导策略执行，剩余的 $H-h$ 步用 $\pi^e$ 消化。这两个综合测量值用 $\pi$ 表示。 $\pi_{1:h}=\pi^g_{1:h}$, $\pi_{h+1:H} = \pi^e_{h+1:H}$。利用上述过程中收集的数据，使用某种政策更新算法 $\mathrm{TRAINPOLICY}$ 更新 $\pi^e$ 和 $\pi$。然后，使用通常的策略评估算法 $\mathrm{EVALUATEPOLITHY}$ 对更新后的 $\pi$ 进行评估，如果评估结果超过阈值，则终止训练。

理论分析

首先，它指出，在不做任何假设的情况下，不进行乐观搜索的搜索算法（如 $\epsilon$-greedy）可以构造一个 MDP，该 MDP 需要指数阶的样本数才能达到指定的次优差距。$H$. 这里，次优差距是算法输出的度量 $\pi$ 与初始分布的最优度量 $\pi^*$ 之间的价值函数差的期望值 $\mathbb{E}_{s_0\sim \rho}[V^{pi^*}(s_0) - V^\pi(s_0)]$。这意味着像 $\epsilon-greedy$ 这样的简单搜索算法，如果没有最坏情况下指数阶的样本，就无法找到接近最优的度量。这是一个众所周知的结果，论文引用了现有研究中的一个定理作为定理 4.1。如果您想知道证明等，请参阅论文。

接下来，研究表明，如果指导策略足够接近最优策略，那么 JSRL 可以使用简单的搜索方法（如$\epsilon$-greedy）在地平线上实现多项式数量级的次优差距，这表明了 JSRL 的有效性及其成功的条件。结果表明，指导策略足够接近最优策略。下面的假设 4.2 是 "指导策略足够接近最优策略 "这一假设的严格表达。

假设4.2 （指导政策 $\pi^g$ 的质量）。假设状态是由某个特征映射 $\phi: S \rightarrow \mathbb{R}^d$ 参数化的，这样对于任何政策 $\pi$, $Q^\pi(s, a)$ 和 $\pi(s)$ 只通过 $\phi$ 与 s 相关。在特征空间中，指导政策 $\pi^g$ 覆盖了最优政策所访问的状态：。

$$\sup_{s,h} \frac{d^{\pi^*}_h (\phi(s))}{ d^{\pi^g}_h(\phi(s))}\leq C.$$

其中，$D^\pi_h$是政策$\pi$在$h$步的访问分布。直观地说，这一假设要求指导措施 $\pi^g$ "覆盖 "最优措施所访问的状态。从这个意义上说，它接近最优测量。在此假设下，可以证明 JSRL 实现了多项式数量级的次优差距。在此，我们重点讨论本文中的定理 4.3（非正式）。

定理 4.3（非正式） 在假设 4.2 和适当选择 TrainPolicy 和 EvaluatePolicy 的情况下，算法 1 中的 JSRL 保证 $\mathcal{O}(C H^{\frac{5}{2}}S^{\frac{1}{2} } A /T^{\frac{1}{2}})$ 用于表格 MDP；对于具有一般函数近似的 MDP，接近最优的边界为 $C · \mathrm{poly}(H) $ 因子。

该定理表明，在假设 4.2 以及适当的训练和评估算法下，对于一类特定的 MDP，会出现多项式阶次最优性差距。该定理还指出，$\epsilon$-greedy 也包含在适当的训练算法中，它克服了刚才所示的指数阶样本复杂度。

这一分析从理论上证明了 "好的指导措施有利于搜索 "这一直觉

试验

在实验中，我们将 JSRL 的性能与模仿学习 + RL 和离线强化学习 + RL 方法的性能进行了比较。 JSRL 的指导策略是通过离线强化学习方法 IQL 学习到的策略。离线强化学习基准 D4RL 用于评估。

图 2 显示了实验结果。

1. 数据数量与性能之间的关系

从结果中可以看出，当使用大量数据进行预训练时，JSRL 的性能与现有方法相同，但当使用少量数据进行预训练时，JSRL 的性能明显优于现有方法。作者指出，这表明 JSRL 即使在无法提前收集大量优质数据的情况下也能高效学习。

2. 课程类型和绩效

如上所述，本实验将引导策略逐渐缩短执行时间范围长度的普通课程（图中表示为 Carriculum）与随机确定时间范围长度的课程（图中表示为 Random）进行了比较。从实验结果可以看出，在数据量较小的情况下，Carriculum 明显优于 Random，而在数据量较大的情况下，两者的性能几乎相当。

摘要

它是如何做到的？在本文中，我们介绍了 Jump-Start RL，这是一种通过预先训练的措施 "引导 "搜索来提高搜索效率的框架。由于用于搜索的强化学习算法是免费的，而且不需要指导策略的类型，因此这一框架有望得到实际应用。离线预训练+在线微调是目前备受关注的框架，请关注它的未来发展。

与本文相关的类别

Kodama