Task-Relevant Adversarial Imitation Learning: GAILはもう古い？

その他 2021年02月05日

3つの要点
✔️ Causal ConfusionによりGAILはパフォーマンスが悪化する
✔️ タスクに関係する特徴量をdiscriminatorが利用するよう制約をかけるTRAILを提案
✔️ 他の比較手法と比べて様々なmanipulation taskにおいて高いパフォーマンスを示す

Task-Relevant Adversarial Imitation Learning
written by Konrad Zolna, Scott Reed, Alexander Novikov, Sergio Gomez Colmenarejo, David Budden, Serkan Cabi, Misha Denil, Nando de Freitas, Ziyu Wang
(Submitted on 2 Oct 2019)
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Robotics (cs.RO); Machine Learning (stat.ML)

はじめに

CoRL 2020にアクセプトされた論文を紹介します。近年、Generative Adversarial Network (GANs)は画像の生成などにおいて注目をされています。同様な仕組みを利用して、Generative Adversarial Imitation Learnng (GAIL)と呼ばれる手法は、Imitation Learning（模倣学習）の手法の一つで、discriminatorがexpertの行動とagentの行動を見分けることが出来るように学習し、それを報酬として利用することでagentを学習することに成功しています。GAILを利用することで通常のRL(強化学習)で必要な探索の問題を解決することができ、タスクを解くことが出来るとされていますが、現状GAILはGAN程の良い結果を出しているわけではありません。特にロボットなどのコントロールに関するpolicyの学習を画像から行うことが困難と言われています。

では何が問題なのでしょうか？その理由としてCausal Confusionというものが考えられています。これは、見せかけの偽の因果関係などで行動してしまうことを表しており、環境の情報が多い、例えば不必要な物体が多く存在しているなどの状態の時に起きやすいです。特に、expertのデータ数が少ないときに、偽の因果関係を学習してしまうことが多いとされています。下図はこの事象について表しています。縦軸はタスクに関係する特徴を表しており、横軸はタスクに関係ない特徴を表しています。学習の初めは、両方の特徴量を利用してexpertとagentのデータを分類していますが、学習が進むごとにタスクに関係がない特徴を使って分類していることがわかります。