エージェントの増減に対応可能なマルチエージェント強化学習アルゴリズム
3つの要点
✔️ 環境内のエージェントの増減に対応可能なマルチエージェント強化学習アルゴリズム「MA-POCA」を提案
✔️ Attention(注意)を用いることでCriticに対する可変長の入力に対応
✔️ エピソード内でエージェントが生成・消滅するタスクや、標準的なマルチエージェント協調タスクにおいて、既存手法を大幅に上回る性能を示した
On the Use and Misuse of Absorbing States in Multi-agent Reinforcement Learning
written by Andrew Cohen, Ervin Teng, Vincent-Pierre Berges, Ruo-Ping Dong, Hunter Henry, Marwan Mattar, Alexander Zook, Sujoy Ganguly
(Submitted on 10 Nov 2021 (v1), last revised 7 Jun 2022 (this version, v2))
Comments: AAAI 2022
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
実世界の多くのシナリオでは、エージェントが協力して共通の目的を達成する必要があります。こういった設定において、シングルエージェントの強化学習(RL)手法では、エージェントの数が増えることによって性能が悪化したり、最適ではないパフォーマンスを示す可能性があります。マルチエージェント強化学習(MARL)手法では、centralized training(中央集権型学習)とdecentralized execution(分散実行)を使用してこれらの問題に対処します。このとき、エージェントはローカルな観測を使用して行動しますが、グローバルに利用可能な情報は、学習中に使用されます。
これまでMARLの既存手法では、環境内のエージェント数を固定して学習することを想定してきました。しかし、これはMARLの多くの実用的なアプリケーションにおいてしばしば不向きです。例えば、チーム戦のビデオゲームにおけるエージェントは、1つのエピソード内で「spawn」(=生成)もしくは「die」(=他のエージェントより先に消滅)する可能性があります。また、ゲーム以外にもチームで動作するロボットのうちのどれかが、バッテリーが不足して、チームメイト(=他のロボット)よりも先に終了することもあります。一般に、既存のアルゴリズムでは、非アクティブなエージェントを吸収状態に置くことで、このような状況を処理します。
※吸収状態:一度入ったら抜けられない状態(下の図でいうと右端もしくは左端のような状態)
エージェントは、エージェントグループ全体が終了条件に達するまで、行動の選択に関係なく、吸収状態に留まります。吸収状態を用いることでCriticへの入力数を固定したまま学習を行うことが出来ますが、これは同時に無駄な情報を入力しているとも捉えることができ、エージェントの数が増えるほど、それは顕著になります。
エージェントの早期終了がもたらす重要な課題を、本研究では Posthumous Credit Assignment(死後信用割り当て)と呼んでいます。環境から排除されたエージェントは、早期終了後にグループに与えられる報酬を経験することはできないため、終了前の行動がグループにとって価値あるものであったかどうかを知ることができません。そこで、この問題を解決するためにエージェントが早期終了したとしても価値を伝播させるMARLアルゴリズムを提案します。具体的には、既存のMARLアルゴリズムCOunterfactual Multi-Agent Policy Gradients (COMA) に対して、吸収状態を持つ全結合層の代わりにAttention(注意)を使用する新規アーキテクチャMulti-Agent POsthumous Credit Assignment (MA-POCA)を提案しました。MA-POCAは、centralized training(中央集権型学習)とdecentralized execution(分散実行)の枠組みの中で、self-Attention(自己注意)メカニズムをCriticへの入力前のアクティブなエージェント情報のみに適用することで、任意の数のエージェントに拡張することができます。
まず分散型-部分観測マルコフ決定過程についてです。これはシングルエージェント強化学習でお馴染みの部分観測マルコフ決定過程をマルチエージェントに拡張したものです。用いられる記号定義については以下の通りです。
- エージェントの数 N( ≥ 1)
- 環境の状態空間 S
-
$O$ := $O_1$ × ... ×$O_N$
COunterfactual Multi-Agent Policy Gradients (COMA) というMARL手法を提案した論文の中で紹介されたものであり、アドバンテージ関数が「共有報酬(グループ報酬)に対して個々のエージェントがどれだけ貢献したか」を反映するようにベースラインを導入します。具体的には、個々のエージェントの行動をマージナルアウトした状態行動価値関数(※反実仮想という名前の通り、エージェントが「もし実際にとった行動とは別の行動をとっていた場合」の状態行動価値を計算しているわけです)を使用し、
て、アドバンテージ関数を
とすることで、エージェントiの方策の勾
を計算していきます。これによって個々のエージェントがグループの共有報酬にどれだけ貢献したかを計算することができます。
Posthumous Credit Assignment(死後信用割り当て)
吸収状態を使用することなく、posthumous credit assignment (死後信用割り当て)の問題に対処するという手法です。
状態価値関数)の出力は
となります。ここで、$g_i(o^i_t)_{1\leq i \leq k_t}$はすべてのアクティブなエージェントの観測値をエンコードしたものであり、RSAはResidualSelfAttentionのことです。そして、目的関数を
として学習を行っていきます。$k_{t+n}$は時刻t+nにアクティブであるエージェント数です。$k_{t+n}$ は$k_{t}$ よりも大きいことも小さいこともあり得ます。なぜなら、時間ステップ t において、任意の数のエージェントが早期に終了するか、あるいは新たに生成される可能性があるからです。
)を学習します。ここでは、観測と観測-行動対を別の存在とみなし、Criticの更新の時と同様にして、RSAブロックと観測および観測-行動エンコーダーを用いて、エージェントjのベースラインを
と定義すると、エージェント j のアドバンテージ関数は、
$y^{(\lambda)}$はCriticの更新に使用したものと同じです。
) MA-POCAを提案しました。従来のMARLでは、早期終了するエージェントに対して吸収状態を適用することでこの問題を扱っていましたが、MA-POCAは、Attentionを用いることで、吸収状態を使用せずにエージェントの学習を行うことができます。また、実験ではMARLタスクにおいて、MA-POCAがCOMAとPPOを、上回ることを実証しました。今後は、分散型POMDPのフレームワークにおける他のアルゴリズムについても、エージェントの最大数Nが未知な問題に対する可能な形式を調査する予定です。
この記事に関するカテゴリー