Expert Demonstrationを使わない教師ありの強化学習!?
3つの要点
✔️ Goal-reachingタスクに対する教師ありの強化学習手法 GCSLの提案
✔️ 集めたデータに対して再度ラベル付けをすることでPolicyに対する教師データを作成 (Hindsight Relabelling)
✔️ 他の比較手法と比べて様々なタスクで、通常の強化学習と同様もしくはより良いパフォーマンスを示す
Learning to Reach Goals via Iterated Supervised Learning
written by Dibya Ghosh, Abhishek Gupta, Ashwin Reddy, Justin Fu, Coline Devin, Benjamin Eysenbach, Sergey Levine
(Submitted on 12 Dec 2019 (v1), last revised 2 Oct 2020 (this version, v4))
Comments: Accepted to arXiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Machine Learning (stat.ML)
はじめに
ICLR 2020に採択された論文を紹介します。RL(強化学習)は、goal-reaching タスク (ゴールが与えられ、そのゴールに到達するタスク)において、特に報酬がスパースの場合、学習が困難であるという問題点があります。それに対して、Imitation Learning (模倣学習)はexpert demonstrationを利用して教師あり学習によりタスクを解くことが可能ですが、expert demonstrationを集める必要があります。
本記事では、expert demonstrationを利用せずに、学習しているpolicy (方策)が集めたデータをラベリングし直し、そのデータを利用して教師あり学習を行うことによってpolicyを学習する Goal-conditioned supervised learning (GCSL)を紹介します。
続きを読むには
(4130文字画像15枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー