YouTubeで逆強化学習する時代？！ロボットが人間から学ぶために必要なコトとは？

Inverse Reinforcement Learning 2022年06月17日

3つの要点
✔️ 学習エージェントと教師エージェントのハードウェアが異なる状況下における模倣学習に関する研究
✔️ 自己教師あり学習を用いて異なる教師エージェントのデモンストレーションを撮影した動画同士の対応関係を捉えることにより、ハードウェアの差異に依存しない概念である「タスクの進捗度合い」に基づく報酬関数を学習する。
✔️ 人間からロボットへの転移タスクの検証用データセットとしてX-MAJICALを構築し、学習エージェントの装備が未知の場合においても有効な報酬関数を学習できることを示した。

XIRL: Cross-embodiment Inverse Reinforcement Learning
written by Kevin Zakka, Andy Zeng, Pete Florence, Jonathan Tompson, Jeannette Bohg, Debidatta Dwibedi
(Submitted on Mon, 7 Jun 2021)
Comments: CoRL2021
Subjects: Robotics (cs.RO); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。また、論文中に記載のない数式（あるいは論文中で数式番号が振られていない数式）についてはローマ字で数式番号をふっています。論文中で数式番号が振られている数式については論文中の数式番号をそのまま引用しています。

はじめに

模倣学習（imitation learning, IL）は教師エージェントの行動データを収集し、それらを模倣する学習エージェントを統計的な手法で獲得する手法です。中でも、逆強化学習（inverse reinforcement learning, IRL）は所望のタスクの行動データから教師エージェントの「意図」を表現する報酬関数（reward function）を推定し、推定した報酬関数を用いて強化学習（reinforcement learning, RL）を実行することにより教師エージェントを模倣する方策（policy）を学習する手法です。この枠組みは、報酬関数が評価可能であれば未知の環境においても方策を学習することが可能であるため、Behavior Cloning (BC)などの教師あり学習手法よりも優れた柔軟性を有しています。従って、逆強化学習はロボットの制御や医療診断などの未知の状況における逐次的意思決定が必要なタスクに適した学習手法として知られています。

通常、逆強化学習では教師エージェントと学習エージェントのハードウェアの同一性を仮定します。例えば、「コップに水を注ぐ」というタスクを行うロボットを学習する場合は、学習エージェントと同様のハードウェアを持つロボットを遠隔操作して「コップに水を注ぐ」という行為を繰り返し実施しロボットの各関節の座標の情報を記録する必要があります。一方で、学習エージェントのハードウェアの仕様が変更された場合はデータ収集を再度行う必要があるため、プロジェクト初期の試行錯誤段階においてはデータ収集に必要なコストが増大してしまうという課題があります。

近年では教師エージェントと学習エージェントのハードウェアの同一性を要請しないthird-person imitation learningが注目されています。この枠組みでは所望のタスクを実行するロボットを学習する場合に人間の行動データを教師データとして用いるため、学習エージェントのハードウェア仕様変更の度に発生していたデータ収集の手戻りを回避することが可能となります。一方で、教師エージェントと学習エージェントの間にはハードウェアの差異（embodyment gap）が存在するため、教師エージェントと学習エージェントの行動の対応関係を何らかの手段で獲得する必要があります。

課題１：動画はさまざまな環境、さまざまな画角、から撮影されているのみならず、エキスパートは異なる道具や戦略を用いて目的を同一のタスクを行なっている。

課題2：人間とロボットの間にはembodyment GAPが存在する。例えば、「５本のペンをカップの中に入れる」というタスクにおいて、人間は手を使って５本のペンを１度に掬い上げることが可能だが、２本指のグリッパーロボットはペンを１つ１つピッキングする必要がある。いずれの場合も目的を達成することが可能だが、人間とロボットの行動の対応関係をラベル付けすることは非常に困難である。様々な環境、人間によるデモンストレーション動画を学習データとして用いる場合、この問題はさらに深刻になる。

本研究のアプローチ：本研究では動作主体について不変の概念である「タスクの進捗度合い」に基づく報酬関数を学習する。

提案手法：本研究では動作主体間で不変の概念である「タスクの進捗度合い」を反映した報酬関数を学習する。

実験：X-MAGICALデータセットを構築。X-MAGICALデータセットと既存のhuman-to-robot transferのベンチマークにおいてSOTA性能を達成。

説明説明。

先行研究

ここでは、先行研究としてベイジアン逆強化学習(Ramachandran & Amir, 2007 )について概説します。以下では、所望のタスクの行動データ集合$\mathcal{D} = \{\tau_1, \tau_2, \cdots, \tau_N \}$が得られているものとします。各行動データ$\tau_n$は状態 $s\in\mathcal{S}$ と行動 $a\in\mathcal{A}$ の組から成る系列データとして表されます。

$$ \tau = \{(s_0, a_0), (s_1, a_1), \cdots, (s_T, a_T)\} \tag{a}$$

ベイジアン逆強化学習では、状態$s$において状態行動価値$Q^{\pi}_{R}$が最大となる行動$a$を選択することが最適方策$\pi(s)$であると仮定します。

$$ \pi(s) \in \underset{a\in\mathcal{A}}{\operatorname{argmax}}Q^{\pi}_{R}(s, a) \tag{b}$$

ここで、$Q^{\pi}_{R}$はQ関数（状態行動価値関数）であり、報酬関数$R$が既知の環境中で状態$s$において行動$a$を実行し、その後は方策$\pi$に従う場合の期待総獲得報酬を表します。

$$ Q^{\pi}_{R}(s, a) = \mathbb{E}_{\pi, \mathcal{T}} \left\lbrack \sum_{t}\gamma^{t}R(s_t, a_t)\middle| s_0=s, a_0=a, \pi \right\rbrack \tag{c}$$

ここで$\gamma \in\lbrack 0, 1)$は割引率であり、現在の意思決定において将来の獲得報酬をどの程度考慮するかを表すハイパーパラメタです。

ベイジアン逆強化学習では、行動データ$\mathcal{D}$が得られた下で、報酬関数の事後分布$P(R\mid\mathcal{D})$の推定を行います。事後分布はベイズの定理により次のように計算することができます。

$$P(R\mid \mathcal{D}) = \frac{P(\mathcal{D}\mid R)P(R)}{P(\mathcal{D})} \tag{d}$$

$P(R)$は報酬関数の事前分布であり、適切に選択することにより報酬関数に対する事前知識を表します。また、$P(\mathcal{D}\mid R)$は尤度関数であり、仮定したモデルから引数の観測値が得られることの妥当性を表す量です。ベイジアン逆強化学習では、尤度関数がQ関数をエネルギー関数とするボルツマン分布で表現できると仮定します。

$$\begin{align}P(\mathcal{D}\mid R) &= \prod_{n=1}^N P(\tau_n \mid R) \\&\propto \prod_{n=1}^N \sum_{(s, a)\in\tau_n}\exp\left(\beta Q^{\pi}_{R}(s, a)\right)\end{align} \tag{e}$$

ここで$\beta\in\lbrack 0, 1)$は逆温度であり、デモンストレーターがどの程度最適な行動を選択しているかを表すハイパーパラメタです。

ベイジアン逆強化学習では、報酬関数の期待値を事後分布からのサンプル平均で近似し、サンプル平均として得られた報酬関数を用いてQ関数の推定を行います。この際、事後分布からのサンプリングはMCMCを用いて行います。MCMCの内部では報酬関数の事後分布の比率に基づく棄却条件を用いたサンプル選定を繰り返し行います。一方で、(e)式で見たように、ベイジアン逆強化学習では尤度関数はQ関数に依存するため、棄却条件の計算の度にQ関数の計算が必要となります。従って、大規模な状態空間を扱う問題設定に対する適用は計算量の観点で困難とされています。

提案手法

本論文では従来のベイジアン逆強化学習のボトルネックである報酬関数の事後分布からのサンプリングが不要なアルゴリズムが提案されています。ここでは提案手法の目的関数の導出過程を解説を行います。まず、事後分布$P(R\mid\mathcal{D})$の近似事後分布$q_{\phi}$を求める問題は分布間のKLダイバージェンスの最小化問題として書き下すことができます。

(6)式をKLダイバージェンスの定義に従って展開すると次式のように変形することができます。

ここで、$\mathcal{F}(\phi)$は変分下界（Evidence Lower BOund, ELBO）と呼ばれる量であり、変分下界の最大化問題は(6)式の最適化問題と同値であることが知られています。更に、(7)式の第１項の期待値に含まれる尤度関数を(e)式で置き換えることにより目的関数を次のように書き下すことができます。

ここで(9)式の近似事後分布$q_{\phi}$についての期待値計算は解析的に計算することが困難であるため、$q_{\phi}$からのサンプル平均により近似的に計算を行います。この時、期待値内部の尤度関数はQ関数に依存するため、サンプル平均を計算するためには報酬関数のサンプル毎にQ関数を計算する必要があります。従って、Q関数の反復計算がボトルネックとなり、大規模な状態数を扱う問題設定においては計算量の観点で課題が残ります。そこで、提案手法では、近似事後分布$q_{\phi}$に関する報酬関数の期待値$\mathbb{E}_{R\sim q_{\phi}}\lbrack R \rbrack$に対するQ関数を表現する関数近似器$Q_{\theta}$を導入し、近似事後分布$q_{\phi}$と同時に学習を行います。この際、Q関数と報酬関数の更新をベルマン方程式（Bellman equation）に矛盾しないように実行する必要があります。ベルマン方程式とはQ関数の再帰的な定義を与える式であり、報酬関数$R$を用いて次のように書き下すことができます。

$$ R(s, a) = \mathbb{E}_{\pi, \mathcal{T}}\lbrack Q(s, a) - \gamma Q(s^{\prime}, a^{\prime}) \rbrack \tag{f} $$

従って、Q関数を表現する関数近似器$Q_{\theta}$を用いて計算した報酬関数の値において$q_{\phi}$の負の対数尤度が十分小さな正数$\epsilon$未満になることを拘束条件として加えることが考えられます。

$$ - \log q_{\phi}\left( \mathbb{E}_{\pi, \mathcal{T}}\lbrack Q(s, a) - \gamma Q(s^{\prime}, a^{\prime}) \rbrack\right) < \epsilon \tag{g} $$

以上を踏まえて(9)式の最適化問題の近似として(10)式の最適化問題を得ることができます。（以下の(10)式は論文中の数式をそのまま引用していますが、拘束条件の表記に誤植があると思われます。拘束条件は正しくは(g)式で表されると思われます。）

更に、(10)式の目的関数をラグランジュ未定乗数法を用いて書き換え、拘束条件の期待値を行動データのサンプル平均で近似することにより、目的関数$\mathcal{F}(\phi, \theta, \mathcal{D})$が得られます。

ここで、$\lambda$は拘束条件の影響の強度を決める正の定数です。提案手法では、(10)式の$\theta$と$\phi$に関する勾配に基づいてモデルの更新を繰り返します。以下に、学習アルゴリズムの擬似コードを示します。

実験

本研究では、Grid Worldタスク、連続状態空間上の制御タスク、オンライン医療診断タスクの３種類の実験結果に基づいて提案手法の優位性が示されています。ここでは各実験の内容と結果について解説します。

Grid World

このタスクの目標は碁盤上に配置された状態間を遷移して目標地点まで到達することです。下図のa)は手動で設計した真の報酬関数、b)は教師データが各状態を訪問した頻度分布、c)は学習した報酬関数のサンプル平均、d)はサンプルの標準偏差をヒートマップで可視化した図です。a)とc)を比較すると、概ね真の報酬関数に近い推定結果を得ることができていると言えます。また、b)とd)を比較すると、教師データにおいて訪問頻度が低い領域（図中右上の領域）においては事後分布からのサンプルの標準偏差が大きくなっており、報酬関数の推定の不確実性が高いことが分かります。このようにベイジアン逆強化学習では報酬関数の推定の「信頼度」を定量化することが可能であるため、方策の安全性を評価することができるという利点があります。

連続状態空間上の制御タスク

本実験では、OpenAI gym上の3種類のロボット制御タスク(Acrobat, CartPole, LunarLander)において、ベンチマーク手法とのサンプル複雑度（sample complexity）の比較が行われています。サンプル複雑度とは大雑把には、モデルが十分な推論性能に達するまでに必要な教師データの量を表しており、サンプル複雑度が低い手法ほど学習に要する教師データが少量で済むモデルと言えます。下図に各制御タスクにおいて、横軸を教師データの数、縦軸を総獲得報酬としてプロットした図を示します。この図からは、提案手法（AVRIL, ピンク）はいずれのタスクにおいても他のベンチマーク手法と同程度の教師データ数でエキスパートと同等の性能を達成していることが分かります。他のベンチマーク手法は、報酬関数を点推定するアプローチであるため、提案手法は同程度の教師データでより情報量が多い結果（報酬関数の事後分布）を学習できる手法であると言えます。

オフライン医療診断タスク

近年、物理ロボットの制御などの環境の探索コストが高いタスク、あるいは医療診断などの環境の探索が倫理的に問題となるタスクにおいて、適切な意思決定を実行可能な方策を学習するオフライン強化学習（Offline refinforcement learning）が注目されています。本実験では、集中治療室中の患者の容態と医師の治療介入を1日おきに記録したMIMIC-III データセットを用いて、医療診断に関する意思決定タスクにおける性能評価を行います。評価指標としてはACC(ACCuracy)、AUC(Area Under the receiving operator Characteristic curve)、APC(Average Precision Score)の3種類のメトリックが用いられています。下図の左側は「人工呼吸器を装着すべきか否か」に対する評価結果、右側はそれに加えて「抗生物質療法を行うべきか否か」という判断も行なった場合の評価結果が示されています。提案手法(AVRIL)は、いずれのタスクにおいても概ねベンチマーク手法を上回る性能を達成していることが分かります。ここで、A-RLは提案手法を用いて学習した報酬関数の事後分布からのサンプル平均に対するQ関数を学習したモデルですが、AVRILの学習過程で獲得したQ関数に基づく方策の方が推論性能が良い結果となることが分かります。

まとめ

本稿ではスケーラブルなベイジアン逆強化学習について解説を行いました。ベイジアン逆強化学習は報酬関数の事後分布を学習するため、報酬関数の推論結果の不確実性を見積もることが可能となります。しかし従来手法ではロボットの制御タスクなどの状態数が大きい問題設定においては計算量の観点で適用が難しいという課題がありました。本稿で紹介したアルゴリズムは従来のベイジアン逆強化学習のボトルネックであったMCMCの反復実行を回避することにより、状態数が大きい問題に対してもスケーラブルな手法であると言えます。この枠組みを用いれば、報酬関数の推定精度が低い状態を回避しつつ目的を達成するための方策を学習することができるため、現実世界の実用的なタスクにおいて安全性の高い模倣学習を実現できるかもしれません。皆さんも、ぜひ試してみてはいかがでしょうか？

この記事に関するカテゴリー

hirakawa: 意思決定をモデリングすることに興味があります。