エージェントの増減に対応可能なマルチエージェント強化学習アルゴリズム

強化学習 2022年10月07日

3つの要点
✔️ 環境内のエージェントの増減に対応可能なマルチエージェント強化学習アルゴリズム「MA-POCA」を提案
✔️ Attention(注意)を用いることでCriticに対する可変長の入力に対応
✔️ エピソード内でエージェントが生成・消滅するタスクや、標準的なマルチエージェント協調タスクにおいて、既存手法を大幅に上回る性能を示した

On the Use and Misuse of Absorbing States in Multi-agent Reinforcement Learning
written by Andrew Cohen, Ervin Teng, Vincent-Pierre Berges, Ruo-Ping Dong, Hunter Henry, Marwan Mattar, Alexander Zook, Sujoy Ganguly
(Submitted on 10 Nov 2021 (v1), last revised 7 Jun 2022 (this version, v2))
Comments: AAAI 2022
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

実世界の多くのシナリオでは、エージェントが協力して共通の目的を達成する必要があります。こういった設定において、シングルエージェントの強化学習（RL）手法では、エージェントの数が増えることによって性能が悪化したり、最適ではないパフォーマンスを示す可能性があります。マルチエージェント強化学習（MARL）手法では、centralized training(中央集権型学習)とdecentralized execution(分散実行)を使用してこれらの問題に対処します。このとき、エージェントはローカルな観測を使用して行動しますが、グローバルに利用可能な情報は、学習中に使用されます。

これまでMARLの既存手法では、環境内のエージェント数を固定して学習することを想定してきました。しかし、これはMARLの多くの実用的なアプリケーションにおいてしばしば不向きです。例えば、チーム戦のビデオゲームにおけるエージェントは、1つのエピソード内で「spawn」（＝生成）もしくは「die」（＝他のエージェントより先に消滅）する可能性があります。また、ゲーム以外にもチームで動作するロボットのうちのどれかが、バッテリーが不足して、チームメイト(＝他のロボット)よりも先に終了することもあります。一般に、既存のアルゴリズムでは、非アクティブなエージェントを吸収状態に置くことで、このような状況を処理します。
※吸収状態：一度入ったら抜けられない状態（下の図でいうと右端もしくは左端のような状態）

エージェントは、エージェントグループ全体が終了条件に達するまで、行動の選択に関係なく、吸収状態に留まります。吸収状態を用いることでCriticへの入力数を固定したまま学習を行うことが出来ますが、これは同時に無駄な情報を入力しているとも捉えることができ、エージェントの数が増えるほど、それは顕著になります。
エージェントの早期終了がもたらす重要な課題を、本研究では Posthumous Credit Assignment(死後信用割り当て)と呼んでいます。環境から排除されたエージェントは、早期終了後にグループに与えられる報酬を経験することはできないため、終了前の行動がグループにとって価値あるものであったかどうかを知ることができません。そこで、この問題を解決するためにエージェントが早期終了したとしても価値を伝播させるMARLアルゴリズムを提案します。具体的には、既存のMARLアルゴリズムCOunterfactual Multi-Agent Policy Gradients (COMA) に対して、吸収状態を持つ全結合層の代わりにAttention(注意)を使用する新規アーキテクチャMulti-Agent POsthumous Credit Assignment (MA-POCA)を提案しました。MA-POCAは、centralized training(中央集権型学習)とdecentralized execution(分散実行)の枠組みの中で、self-Attention(自己注意)メカニズムをCriticへの入力前のアクティブなエージェント情報のみに適用することで、任意の数のエージェントに拡張することができます。

予備知識

decentralized-POMDP(分散型部分観測マルコフ決定過程）

まず分散型-部分観測マルコフ決定過程についてです。これはシングルエージェント強化学習でお馴染みの部分観測マルコフ決定過程をマルチエージェントに拡張したものです。用いられる記号定義については以下の通りです。

エージェントの数 N( ≥ 1)
環境の状態空間 S
全エージェントの共同観測空間 $O$ := $O_1$ × ... ×$O_N$
- エージェントiの観測空間 $O^i$
全エージェントの共同行動空間 $A$ := $A^1$ × ... × $A^N$
- エージェントiの行動空間 $A^i$
状態遷移関数 P : S × A × S → [0, 1]
共有報酬関数 r : S × A → R

Centralized Training, Decentralized Execution（中央集権型学習、分散実行）

本研究では、actor-criticにおいて、共同情報に基づいて学習されたCriticが独立したActorの集合を更新するIACC（Independent Actor with Centralized Critic）の枠組みを考察します。比較手法として、局所情報のみを用いて各エージェントそれぞれが独立したCriticとActorを学習するIndependent Actor-Critic (IAC) と、単一のJointActorとJointCriticを学習するJoint ActorCritic (JAC) が存在します。しかし、IACは局所的な観測値のみを用いるため、大きな協調を必要とするタスクではうまく機能しません。また、JACは、大きなシングルエージェント問題と考えることができますが、JointActorが行動を生成するために、すべてのエージェントの観測に一度にアクセスする必要があり、実世界のシナリオでは実用的でない場合が多いです。(※下図はCentralized Training, Decentralized Executionのイメージ図)

Counterfactual Baselines（反実仮想ベースライン）

反実仮想ベースラインは、COunterfactual Multi-Agent Policy Gradients (COMA) というMARL手法を提案した論文の中で紹介されたものであり、アドバンテージ関数が「共有報酬(グループ報酬)に対して個々のエージェントがどれだけ貢献したか」を反映するようにベースラインを導入します。具体的には、個々のエージェントの行動をマージナルアウトした状態行動価値関数(※反実仮想という名前の通り、エージェントが「もし実際にとった行動とは別の行動をとっていた場合」の状態行動価値を計算しているわけです)を使用し、

をベースラインとして、アドバンテージ関数を

とすることで、エージェントiの方策の勾

を計算していきます。これによって個々のエージェントがグループの共有報酬にどれだけ貢献したかを計算することができます。

エージェントが早期終了する際の課題

Posthumous Credit Assignment(死後信用割り当て)

報酬を共有する協力的な環境では、エージェントはグループの将来的な報酬を最大化するように行動します。個々のエージェントの現在の行動が、後のタイムステップでグループ報酬につながるものの、エージェント自身の即時終了につながるような場合がしばしば存在します（例えば、自己犠牲的なイベント）。この場合、強化学習エージェントから見れば、環境から排除されたため、グループが後で得るかもしれない報酬を受け取ることができなくなってしまったのに加えて、グループが報酬を受け取るときの環境の状態も観察することができません。したがって、エージェントは経験できない報酬を最大化するように学習しなければならないというわけです。本研究ではこれをPosthumous Credit Assignment（死後信用割り当て）問題と呼びます。

Absorbing States(吸収状態)

Dec-POMDP(分散型マルコフ決定過程)においては、$o^{abs}_i$ を、エージェント i が終了状態に達し、環境において活動しなくなった際の吸収状態として扱います。エージェントi が$o^{abs}_i$に入ると、グループが終了状態に達し、すべてのエージェントが新しい初期状態にリセットされるまで、行動に関係なく、そこに留まることになるので、次のようなことが言えます。

また、エージェントi が状態$o^{abs}_i$にあるとき、遷移関数はそのエージェントの行動とは無関係になります。

※$a^{-i}$はエージェントi以外の全てのエージェントの共同行動です。
このように、吸収状態を導入することで、消滅・生成されるエージェントの設定を表現することは簡単ですが、実際に用いる場合には以下のような問題が生じます。

吸収状態の数が一定ではないことから、ニューラルネットワークに基づく関数近似器の学習を複雑にしてしまう
環境に影響を与えないエージェントに対しても計算資源を当てなければならない

MA-POCA

そこで上記課題に対処するために、本研究ではMA-POCA と呼ばれる新しいマルチエージェント強化学習手法を提案しました。これは、COMA (Foerster et al. 2018) を改良したものであり、criticネットワーク入力前のアクティブなエージェントに対してself-attention(自己注意)を使用し、それによって、吸収状態を使用することなく、posthumous credit assignment (死後信用割り当て)の問題に対処するという手法です。

MA-POCA Value Function(Criticの更新について)

本設定ではアクティブなエージェントの数は時間ステップtに依存します。したがって、$k_t$が 1 ≤$k_t$ ≤ N となるような時間ステップ t におけるアクティブなエージェントの数を示すとする（N は任意の時間に生存できるエージェントの最大数）と、Critic(状態価値関数)の出力は

となります。ここで、$g_i(o^i_t)_{1\leq i \leq k_t}$はすべてのアクティブなエージェントの観測値をエンコードしたものであり、RSAはResidualSelfAttentionのことです。そして、目的関数を

として学習を行っていきます。$k_{t+n}$は時刻t+nにアクティブであるエージェント数です。$k_{t+n}$ は$k_{t}$ よりも大きいことも小さいこともあり得ます。なぜなら、時間ステップ t において、任意の数のエージェントが早期に終了するか、あるいは新たに生成される可能性があるからです。

MA-POCA Counterfactual Baseline(Actorの更新について)

$1\leq i\leq k_t, i\neq j$となるようなすべてのエージェントiの観測-行動ペアを条件とする価値関数を学習することによって、あるエージェントjのCounterfactual baseline(反実仮想ベースライン)を学習します。ここでは、観測と観測-行動対を別の存在とみなし、Criticの更新の時と同様にして、RSAブロックと観測および観測-行動エンコーダーを用いて、エージェントjのベースラインを

と定義すると、エージェント j のアドバンテージ関数は、

となります。ただし、$y^{(\lambda)}$はCriticの更新に使用したものと同じです。

実験

4つのマルチエージェント環境でMA-POCAを実証的に評価し、その性能をマルチエージェント強化学習手法COMA、そして、シングルエージェント強化学習手法PPOと比較します。４つの環境のうち3つはUnityのML-Agents Toolkit を用いて構築され、残りの1つはMulti-Agent Particle Environments のものです。環境の詳細な説明は次の通りです。

(a) Collaborative Push Block：エージェント(青，黄，紫)は白いブロックを緑の領域まで押します。大きなブロックはより多くのエージェントが押す必要があります
(b) Simple Spread：エージェント（紫）は互いにぶつかることなく、ターゲット（黒）をカバーするように移動しなければなりません
(c) Baton Pass：青いエージェントが緑色のfoodをつかみ、緑色のボタンを押すと別のエージェントが生まれ、次のfoodをつかむことができるようになるので、それを繰り返していきます
(d) Dungeon Escape：青いエージェントは緑のドラゴンを倒し、そのうちの1人を犠牲にしてカギを出さなければなりません。チームメイトは鍵を拾って、ピンクのドラゴンを避けながら、ドアまでたどり着かなければなりません

実験結果は以下のようになりました。MA-POCAは4つの環境すべてで他手法を上回り、特にエージェントの生成や消滅を伴う環境（(c)と(d)）では顕著に上回りました。逆にPPOは4つの環境すべてにおいて，最適な方策を見つけることができず，局所最適に収束してしまいました。これは、分散化された学習と行動によってもたらされる部分的な観測可能性によるものと思われます。また、MA-POCAはCOMAよりも速くに学習が収束していることがわかりますが、これは、COMAのCriticに対する、吸収状態による非効率的な入力表現に起因すると考えられます。

結論

この論文では、エージェントが早期に終了した場合に生じるPosthumous Credit Assignment(死後信用割り当て)問題を解決するための、新しいマルチエージェント強化学習手法MA-POCAを提案しました。従来のMARLでは、早期終了するエージェントに対して吸収状態を適用することでこの問題を扱っていましたが、MA-POCAは、Attentionを用いることで、吸収状態を使用せずにエージェントの学習を行うことができます。また、実験ではMARLタスクにおいて、MA-POCAがCOMAとPPOを、上回ることを実証しました。今後は、分散型POMDPのフレームワークにおける他のアルゴリズムについても、エージェントの最大数Nが未知な問題に対する可能な形式を調査する予定です。