完璧なエキスパートを用意しなくていい⁉不完全なエキスパートに対応した模倣学習

強化学習 2020年10月19日

3つの要点
✔️ 模倣学習のベースラインに用いられるGAILの拡張手法
✔️ 不完全なエキスパートを使用したとしても他の強化学習，模倣学習手法に匹敵
✔️ 敵対的学習のDiscriminator vs Generatorの構造に加えて第３のネットワークAction Guide ネットワークを追加

Adversarial Imitation Learning from Incomplete Demonstrations
written by Mingfei Sun, Xiaojuan Ma
(Submitted on 29 May 2019 (v1), last revised 23 Jun 2019 (this version, v3))
Comments: Accepted at International Joint Conference on Artificial Intelligence (IJCAI-19)
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Machine Learning (stat.ML)
Paper Official Code COMM Code

はじめに

今回紹介する論文は近年の模倣学習研究のベースラインとして使用されるGenerative Adversarial Imitation Learning(以下GAIL)を拡張した手法を提案しています。模倣学習は強化学習と比べて人手による報酬の設計を必要としないで，最適な方策を持つエキスパートから方策を学習できる手法です。そのため，ロボットの制御など，報酬の設計が困難である多次元で複雑な問題にも用いることが可能です。しかし，その模倣の精度はエキスパートに依存してしまい，エキスパートとして学習器に与えていても実は利用できない，「品質の低いデータ」を含んでいて学習に悪影響を及ぼすことがあります。これは実世界でのタスクを考えるとイメージしやすいと思います。論文中の例を用いると，カップを持ち上げるという人間の動作をロボットに模倣学習を用いて適用する場合，人間の体の動き(状態)は視覚的に獲得できますが，人間の関節の力やトルク(行動)はロボットに適用できません。また，同じ状態でも人間の知識や好みといった個々の要因で行動が変化することがあるため，エキスパートの完全な行動は獲得しにくいと言われています。この論文の手法では今述べたような不完全なエキスパートを与えても，真の報酬を与えた場合のスコアに匹敵する方策が獲得できることが示されています。

続きを読むには

(4775文字画像6枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または