代理人应该在什么时候探索？

强化学习 14/06/2022

三个要点
✔️ 关注何时进行搜索，而以前只考虑搜索的数量
✔️ 增加变量的数量可以灵活地进行搜索设计
✔️ 关于各变量影响的实验

When should agents explore?
written by Miruna Pîslar, David Szepesvari, Georg Ostrovski, Diana Borsa, Tom Schaul
(Submitted on 26 Aug 2021 (v1), last revised 4 Mar 2022 (this version, v2))
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

强化学习已经在多个领域取得了巨大的成功，包括棋盘游戏、视频游戏和机器人控制，但探索问题仍然是一个核心挑战。

强化学习的一个基本考虑是探索（exploit）和利用（exploit）之间的平衡。问题是如何在从我们拥有的信息中采取最佳选择，或出去收集信息以找到更好的选择之间取得平衡。

其中，探索的 "量 "的问题，即应该做多少探索，一直是很多研究的主题，包括熵最大化的强化学习，如epsilon-ready和SAC，它们也被用于DQN中。然而，关于何时搜索的问题，还没有太多的研究。在这篇文章中，我们介绍了一篇由DeepMind研究团队撰写并被接受在2022年ICLR上发表的论文，该论文解决了何时搜索这个问题。

技术

搜索方法

第一个假设是，该方法有一个搜索模式和一个利用模式。开发模式是在当前价值函数范围内采取最佳行动，而搜索模式则是为了寻找更好的行动。本文在搜索模式上考虑了两种类型的搜索方法：一种是统一探索，顾名思义，完全随机选择行动，例如ε-greedy。另一种是内在动机搜索，这是RND中使用的方法。

搜索的颗粒度

下一步是考虑搜索的颗粒度。这可以归纳为四种模式

阶梯水平 (C)

最常见的设置决定了是否每一步都要进行搜索。一个突出的例子是epsilon-greedy。

实验水平(A)

所有的行为都是在探索性模式下确定的，并在政策性关闭类型中学习。这也是一种常见的方法，与那些使用内在奖励的方法相呼应。

剧集级别(B)

选择是否探索每一集。

在外显期内（D、E、F、G）

这种方法介于步骤层面和偶发层面之间。探索持续了几个步骤，但并没有延伸到整个情节。这是研究最少的环境，本研究主要涉及这一环境。

这些方法中的每一种都在下图中得到了说明。在左边，粉红色代表探索模式，蓝色代表开发模式。右图显示了探索量和探索长度之间的关系。px显示了在每个动作中包含多少探索，而medx显示了一旦进入探索模式，就会持续进行多少探索。皮肤颜色所包围的区域对应的是episodic内，从这一点可以看出，该方法是相当灵活的。

切换方法

我们现在将看看在搜索和开发模式之间的切换。在算法上主要有两种可能性。

盲目切换

这是最简单的方法，只考虑开关的频率，不考虑状态。例如，可以准备一个计数器并以恒定的速率进行切换，或者考虑采用概率选择方法，如ε-greedy。

知情切换

该方法利用代理人的内部状态进行更高层次的决策，由两部分组成。首先，代理发出了一个每一步都有标量值的触发信号。第二，根据该信号做出模式切换的决定。作为一个实际的例子，本文使用一个被称为价值承诺差异的量，由以下公式表示，作为触发信号。

这代表了k步之前的预测和实际行动之后的实现值之间的差异，该方法是这样的：如果这个值很高，即预测不起作用，它就切换到探索模式。

另一个重要的问题是，在一集的开始，初始模式应该是什么。当然，这取决于要适应的任务，但在许多情况下，人们认为从开发模式开始是有效的。这是由于初始状态邻域被访问的次数相对多于其他状态，因此预测更准确。

实验

设置

使用了七个雅达利游戏。其中，最困难的，如蒙特祖马的复仇，已经被选中。

R2D2被选为主要的强化学习算法。这是一个分布式的DQN，使用RNNs来表示Q-函数。我们将这个R2D2与一个包含了上面介绍的搜索粒度和模式切换算法的基础进行比较。当然，模式切换只在训练期间进行，而贪婪策略则在评估期间使用。

基准线

我们考虑了以下四种基线，以比较表内法和其他方法

所有搜索模式（实验-水平-X）。
所有开发模式（实验-水平-G）
ε-greedy ε=0.01 (步骤级-0.01)
匪徒元控制器在剧情之间进行选择和修复（剧情级别-*）。

对于上述每一种情况，都有统一搜索（X_U）和内在动机搜索（X_I）的搜索模式。

图中比较了这些基线与所提出的方法的外延（红色实线）。左边两幅图显示的是统一搜索的情况，而右边两幅图显示的是内生性激励搜索的情况。可以看出，在这两种情况下，表内的情况都比较好。

表内变体

可以考虑对 "内 "的许多变体。接下来将列举它们。括号中的符号对应于表示方法的符号。

如何搜索：统一搜索（XU），内在动机搜索（XI）。
搜索周期：固定（1,10,100），由Bandit自适应选择（*），或由切换到搜索模式的相同算法处理（=）。
切换：盲目、知情
开发模式的持续时间：。
- 用于盲目切换。固定的(10,100,1000,10000)，随机的(0.1,0.01,0.001,0.0001)，通过强盗的适应性选择(n*, p*)
- 对于知情的转换。目标利率的选择。固定的（0.1, 0.01, 0.001, 0.0001），强盗的适应性选择（P*）。
开始时的模式：开发（G）或搜索（X）。

基于这些，有一种方法表示如下。

这表明搜索是均匀进行的，搜索模式是100步连续的，由Bandit选择的概率性盲切换，初始模式是利用。

业绩

我们现在要看一下这种表象内的变化是如何影响探索性表现的。下面的数字显示了随着剧情的发展，探索的数量如何变化（第1栏和第3栏）。训练的开始也用一个正方形表示，训练的结束用一个X表示。值得注意的是，尽管统一搜索和内在动机搜索是非常不同的搜索方案，但这两张图却很相似。

开关

然后对切换进行比较。

左图和中图分别显示了在盲目和知情模式切换时，开发（蓝色）和探索（红色）的分布情况。可以看出，在知情的情况下，探索的密度是有变化的。右边的图显示了每种方法的收益，最后知情者表现更好。

开始时的模式

接下来，我们看一下这一集开始时模式的影响。

上图显示了七个游戏中每个游戏的搜索开始（红色）和利用开始（蓝色）的回报，左边是统一搜索，右边是内部激励搜索。基本上，可以看出，剥削开始的情况比较好。这可以解释为剧情开始时的状态被访问得更频繁，预测也更稳定。然而，在诸如《蒙特苏马的复仇》这样需要长时间探索的游戏中，探索开始时的表现更好，你需要对你所适应的环境有充分的了解。

盲目切换中的模式切换

最后，比较了盲切换中模式切换方法的计数和概率公式。

左边的两个数字显示了每集的搜索量和回报率之间的关系。随着训练的进行，点的颜色会从蓝色变为红色。左图（计数公式）显示，搜索费用在各集之间没有明显的变化，而且随着各集的进展，回报率稳步上升。在中间（建立公式），可以读出各集之间的搜索费用有很大的变化，而且随着探索的增多，回报率会下降。右边的图显示了这些方法的收益，表明概率公式的表现更好。

摘要

在这篇文章中，我们介绍了一篇论文，该论文深入探讨了代理人搜索的 "何时 "方面。本文作者提出的表内区分，使得代理探索的设计比以前更加灵活。然而，挑战在于，这只限于探索和开发模式之间有明确区别的情况。目前，连续值控制的主流方法是基于熵值最大化的强化学习，如SAC，这些算法不切换模式，可以说在某种意义上是一直在探索。未来的研究有望将这一内省概念发展到包括SAC和其他。