Expert Demonstrationを使わない教師ありの強化学習！?

強化学習 2021年02月15日

3つの要点
✔️ Goal-reachingタスクに対する教師ありの強化学習手法 GCSLの提案
✔️ 集めたデータに対して再度ラベル付けをすることでPolicyに対する教師データを作成 (Hindsight Relabelling)
✔️ 他の比較手法と比べて様々なタスクで、通常の強化学習と同様もしくはより良いパフォーマンスを示す

Learning to Reach Goals via Iterated Supervised Learning
written by D ibya Gho sh, Abhishek Gupta, Ashwin Reddy, Justin Fu, Coline Devin, Benjamin Eysenbach, Sergey Levine
(Submitted on 12 Dec 2019 (v1), last revised 2 Oct 2020 (this version, v4))
Comments: Accepted to arXiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Machine Learning (stat.ML)

はじめに

ICLR 2020に採択された論文を紹介します。RL(強化学習)は、goal-reaching タスク (ゴールが与えられ、そのゴールに到達するタスク)において、特に報酬がスパースの場合、学習が困難であるという問題点があります。それに対して、Imitation Learning (模倣学習)はexpert demonstrationを利用して教師あり学習によりタスクを解くことが可能ですが、expert demonstrationを集める必要があります。

本記事では、expert demonstrationを利用せずに、学習しているpolicy (方策)が集めたデータをラベリングし直し、そのデータを利用して教師あり学習を行うことによってpolicyを学習する Goal-conditioned supervised learning (GCSL)を紹介します。

続きを読むには

(4130文字画像15枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または