能够应对代理数量增加或减少的多代理强化学习算法

强化学习 07/10/2022

三个要点
✔️ 提出了MA-POCA，一种多代理强化学习算法，可以应对环境中代理数量增加或减少的情况。
✔️ 通过使用Attention支持对Critic的可变长度输入
✔️ 在代理在一个事件中被创建和销毁的任务中，以及在标准的多代理合作任务中，明显优于现有的方法。

On the Use and Misuse of Absorbing States in Multi-agent Reinforcement Learning
written by Andrew Cohen, Ervin Teng, Vincent-Pierre Berges, Ruo-Ping Dong, Hunter Henry, Marwan Mattar, Alexander Zook, Sujoy Ganguly
(Submitted on 10 Nov 2021 (v1), last revised 7 Jun 2022 (this version, v2))
Comments: AAAI 2022
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

在许多现实世界的场景中，代理需要一起工作以实现共同的目标。在这些环境中，随着代理数量的增加，单代理强化学习（RL）方法可能表现更差或显示出次优的性能。多代理强化学习（MARL）方法利用集中训练和分散执行来解决这些问题。然后，代理使用本地观察结果采取行动，但在训练期间使用全球可用的信息。

到目前为止，现有的MARL方法都假定环境中的代理数量是固定的，以便学习。然而，这往往不适合MARL的许多实际应用。例如，基于团队的视频游戏中的代理可能在一个情节中 "产生"（即被创造）或 "死亡"（即在其他代理面前消失）。除了游戏之外，在一个团队中运作的任何机器人也可能耗尽电池电量，并在其队友（即其他机器人）之前终止。一般来说，现有的算法通过将不活跃的代理置于吸收状态来处理这种情况。
*吸收状态：一旦进入，就不能离开（像下图中的最右边或最左边）。

代理人一直处于吸收状态，直到整个代理组达到终止条件，无论他们选择什么行动。吸收状态允许在向Critic输入固定数量的情况下进行学习，但这也可以看作是一种信息的浪费，随着代理人数量的增加，这种浪费会变得更加明显。
代理人过早终止所带来的关键挑战在本研究中被称为 死后信用 分配。被排除在环境之外的代理不能体验到提前终止后给予群体的奖励，因此不能知道他们在终止前的行为对群体是否有价值。因此，我们提出了一种MARL算法来解决这个问题，即使代理被提前终止，它也能传播价值。具体来说，对于现有的MARL算法COunterfactual Multi-Agent Policy Gradients（COMA ），一种新颖的架构Multi-Agent，使用Attention代替全耦合层的吸收状态。POsthumous Credit Assignment(MA-POCA)是一个新颖的架构，在集中训练和分散执行的框架内，使用Attention而不是具有吸收状态的完整耦合层。注意（自我注意）机制可以扩展到任意数量的代理，在输入到Critic之前只应用于活跃的代理信息。

背景知识

分散式POMDP（分散式部分观察马尔可夫决策过程）。

首先，我们讨论分布式-部分观察的马尔科夫决策过程。这是部分观察马尔可夫决策过程的延伸，从单人强化学习中熟悉到多人。使用的符号定义描述如下。

代理人的数量N( ≥ 1)
环境的状态空间S
所有代理人的联合观察空间$O$ :=$O_1$ × ... × $O_N$
- 代理人i的观察空间$O^i$。
所有代理人的联合行动空间。 $A$:= $A^1$ × x ... × $A^N$
- 代理人i的行动空间$A^i$ 。
状态转换函数P：S×A×S→ [0， 1] 。
共享奖励函数r : S × A → R

集中培训，分散执行。

在演员批评中，我们考虑独立演员与集中批评者（IACC）框架，其中批评者根据联合信息更新一组独立演员而学习。作为一种比较方法，独立演员批评（IAC），其中每个代理只使用本地信息学习独立的批评者和演员，以及联合演员批评，其中一个单一的联合演员和联合批评者(JAC)，它学习一个单一的JointActor和JointCritic。然而，IAC只使用局部观测，对于需要大范围协调的任务来说，效果并不好。JAC也可以被认为是一个大型的单代理问题，但在现实世界的场景中往往是不切实际的，因为JointActor需要同时访问所有代理的观察结果，以产生一个行动。(*下图说明了集中培训，分散执行)。

反事实的基线。

反事实-虚拟基线的基础是COunterfactual Multi-Agent Policy Gradients（COMA）。 在一篇提出名为 "COunterfactual Multi-Agent Policy Gradients（COMA）"的MARL方法的论文中介绍，该方法引入了一个基线，使优势函数反映了 "单个代理对共享奖励（团体奖励）的贡献程度"。具体来说，它使用了一个状态行动价值函数，将个别代理人的行动边缘化（*正如反事实的名称所暗示的，它计算了代理人的状态行动价值，"如果它采取了与实际不同的行动"），并且

作为基线，优势函数作为

因此，代理人i的措施的梯度为

计算方法是基于以下公式。这可以让你计算出每个人的代理人对团体的共享奖励有多少贡献。

代理人提前终止时面临的挑战。

死后的学分分配。

在一个有共享奖励的合作环境中，代理人的行为方式会使群体的未来奖励最大化。经常会有这样的情况：单个代理的当前行为导致代理本身立即终止（例如自我牺牲的事件），尽管它在稍后的时间步骤中导致了群体奖励。在这种情况下，从强化学习代理的角度来看，它不再能够观察到小组获得奖励时的环境状态，此外也不再能够获得小组后来可能获得的奖励，因为它已被排除在环境之外。因此，代理人必须学会最大化它无法体验的奖励。在本研究中，这被称为 "遗体信用分配 "问题。

吸收状态

在Dec-POMDPs（分散马尔可夫决策过程）中，当代理人i达到终止状态，不再在环境中活动时，$o^{abs}_i$被视为吸收状态。一旦代理i进入$o^{abs}_i$，无论其行为如何，都将停留在那里，直到群体达到终止状态，所有代理被重置到新的初始状态，因此

另外，当代理人i处于状态$o^{abs}_i$时，过渡函数与该代理人的行为无关。

*$a^{-i}$是除代理人i之外的所有代理人的联合行动。
因此，尽管通过引入吸收状态来表达要湮灭或创造的代理人的配置是很容易的，但在实际使用中会出现以下问题。

吸收状态的数量不是恒定的，这使基于神经网络的函数近似器的训练变得复杂。
计算资源也必须应用于不影响环境的代理。

MA-POCA

为了解决上述问题，本研究提出了一种新型的多代理强化学习方法，即MA-POCA。它是对COMA（Foerster等人，2018）的改进，它在批判网络输入之前使用主动代理的自我注意，从而解决了该方法解决了死后信用分配的问题。

MA-POCA价值函数（关于更新批评者）。

在这种情况下，活动代理的数量取决于时间步骤t。因此，让$k_t$表示在时间步骤t的活动代理数量，使1≤$k_t$≤N（其中N是在任何给定时间可以生存的最大代理数量），Critic的输出（状态值函数）为

以下是结果。其中$g_i(o^i_t)_{1\leq i\leq k_t}$是所有活动代理的编码观察，RSA是ResidualSelfAttention。那么，目标函数就是。

训练是以下列方式进行的。$k_{t+n}$是在时间t+n上活跃的代理人的数量。$k_{t+n}$可以大于或小于$k_{t}$。这是因为在时间步骤t，任何数量的代理可能会被提前终止，或者新的代理可能被创建。

MA-POCA反事实基线（关于演员更新）。

1美元：i\leq k_t, i\neq j$代理人j的反事实基线是通过学习一个以所有代理人i的观察-行动对为条件的价值函数来学习的，即在这里，我们把观察值和观察-行动对看作是独立的实体，与批评家的更新一样，我们使用RSA块和观察值和观察-行动编码器来学习代理人j的基线，即

那么代理人j的优势函数被定义为

这将是一种情况。然而。$y^{(\lambda)}$与用于更新Critic的一样。

实验

我们在四个多代理环境中对MA-POCA进行了实证评估，并将其性能与多代理强化学习方法COMA进行了比较，然后与单代理强化学习方法PPO进行了比较。四个环境中的三个是用Unity的ML-Agents建立的。工具箱，剩下的一个来自多Agent粒子环境。以下是对这些环境的详细描述。

(a) 协作推块：代理人（蓝色、黄色、紫色）将白色块推到绿色区域。较大的区块需要更多的代理人来推动
(b) 简单传播：代理人（紫色）必须移动以覆盖目标（黑色）而不互相碰撞。
(c) 棍子传球：蓝色特工抓住绿色食物并按下绿色按钮，产生另一个特工，然后可以抓住下一个食物，以此类推。
(地下城逃亡：蓝色特工必须击败绿龙，并牺牲其中一个人，才能把钥匙拿出来。你的队友必须拿起钥匙，到达门前，避开粉红色的龙!

实验结果如下：MA-POCA在所有四种环境中的表现都优于其他方法，特别是在有代理人创建和消失的环境中（（c）和（d））。相反，PPO在所有四个环境中都没有找到最优策略，而是收敛到了一个局部最优。这可能是由于分散的学习和行为所带来的部分可观察性。我们还发现，MA-POCA在学习上的收敛速度比COMA快，这可能是由于COMA的Critic由于吸收状态而导致的低效输入表示。

结论。

在本文中，我们提出了一种新的多代理强化学习方法，以解决遗体信用分配（PCA）问题，该问题是在代理被提前终止时产生的。)一种新颖的多代理强化学习方法来解决这个问题。提出了MA-POCA。传统的MARL通过对提前终止的代理应用吸收状态来处理这个问题，而MA-POCA使用注意力来学习代理而不使用吸收状态。实验还表明，MA-POCA在MARL任务中的表现优于COMA和PPO。在未来，将研究分布式POMDP框架中的其他算法，以研究最大代理数N未知的问题的可能形式。