
能够应对代理数量增加或减少的多代理强化学习算法
三个要点
✔️ 提出了MA-POCA,一种多代理强化学习算法,可以应对环境中代理数量增加或减少的情况。
✔️ 通过使用Attention支持对Critic的可变长度输入
✔️ 在代理在一个事件中被创建和销毁的任务中,以及在标准的多代理合作任务中,明显优于现有的方法。
On the Use and Misuse of Absorbing States in Multi-agent Reinforcement Learning
written by Andrew Cohen, Ervin Teng, Vincent-Pierre Berges, Ruo-Ping Dong, Hunter Henry, Marwan Mattar, Alexander Zook, Sujoy Ganguly
(Submitted on 10 Nov 2021 (v1), last revised 7 Jun 2022 (this version, v2))
Comments: AAAI 2022
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
在许多现实世界的场景中,代理需要一起工作以实现共同的目标。在这些环境中,随着代理数量的增加,单代理强化学习(RL)方法可能表现更差或显示出次优的性能。多代理强化学习(MARL)方法利用集中训练和分散执行来解决这些问题。然后,代理使用本地观察结果采取行动,但在训练期间使用全球可用的信息。
到目前为止,现有的MARL方法都假定环境中的代理数量是固定的,以便学习。然而,这往往不适合MARL的许多实际应用。例如,基于团队的视频游戏中的代理可能在一个情节中 "产生"(即被创造)或 "死亡"(即在其他代理面前消失)。除了游戏之外,在一个团队中运作的任何机器人也可能耗尽电池电量,并在其队友(即其他机器人)之前终止。一般来说,现有的算法通过将不活跃的代理置于吸收状态来处理这种情况。
*吸收状态:一旦进入,就不能离开(像下图中的最右边或最左边)。
代理人一直处于吸收状态,直到整个代理组达到终止条件,无论他们选择什么行动。吸收状态允许在向Critic输入固定数量的情况下进行学习,但这也可以看作是一种信息的浪费,随着代理人数量的增加,这种浪费会变得更加明显。
代理人过早终止所带来的关键挑战在本研究中被称为 死后信用 分配。被排除在环境之外的代理不能体验到提前终止后给予群体的奖励,因此不能知道他们在终止前的行为对群体是否有价值。因此,我们提出了一种MARL算法来解决这个问题,即使代理被提前终止,它也能传播价值。具体来说,对于现有的MARL算法COunterfactual Multi-Agent Policy Gradients(COMA ),一种新颖的架构Multi-Agent,使用Attention代替全耦合层的吸收状态。POsthumous Credit Assignment(MA-POCA)是一个新颖的架构,在集中训练和分散执行的框架内,使用Attention而不是具有吸收状态的完整耦合层。注意(自我注意)机制可以扩展到任意数量的代理,在输入到Critic之前只应用于活跃的代理信息。
首先,我们讨论分布式-部分观察的马尔科夫决策过程。这是部分观察马尔可夫决策过程的延伸,从单人强化学习中熟悉到多人。使用的符号定义描述如下。
- 代理人的数量N( ≥ 1)
- 环境的状态空间S
-
:=$O_1$ × ... × $O_N$
COunterfactual Multi-Agent Policy Gradients(COMA)。 在一篇提出名为 "COunterfactual Multi-Agent Policy Gradients(COMA)"的MARL方法的论文中介绍,该方法引入了一个基线,使优势函数反映了 "单个代理对共享奖励(团体奖励)的贡献程度"。具体来说,它使用了一个状态行动价值函数,将个别代理人的行动边缘化(*正如反事实的名称所暗示的,它计算了代理人的状态行动价值,"如果它采取了与实际不同的行动"),并且
,优势函数作为
因此,代理人i的措施的梯度为
计算方法是基于以下公式。这可以让你计算出每个人的代理人对团体的共享奖励有多少贡献。
死后的学分分配。
的改进,它在 解决了该方法解决了死后信用分配的问题。
的输出 函数)为
以下是结果。其中$g_i(o^i_t)_{1\leq i\leq k_t}$是所有活动代理的编码观察,RSA是ResidualSelfAttention。那么,目标函数就是。
训练是以下列方式进行的。$k_{t+n}$是在时间t+n上活跃的代理人的数量。$k_{t+n}$可以大于或小于$k_{t}$。这是因为在时间步骤t,任何数量的代理可能会被提前终止,或者新的代理可能被创建。
是通过学习一个 来学习的,即在这里,我们把观察值和观察-行动对看作是独立的实体,与批评家的更新一样,我们使用RSA块和观察值和观察-行动编码器来学习代理人j的基线,即
那么代理人j的优势函数被定义为
$y^{(\lambda)}$与用于更新Critic的一样。
) 提出了MA-POCA。传统的MARL通过对提前终止的代理应用吸收状态来处理这个问题,而MA-POCA使用注意力来学习代理而不使用吸收状态。实验还表明,MA-POCA在MARL任务中的表现优于COMA和PPO。在未来,将研究分布式POMDP框架中的其他算法,以研究最大代理数N未知的问题的可能形式。
与本文相关的类别