最新AI論文をキャッチアップ

Expert Demonstrationを使わない教師ありの強化学習!?

Expert Demonstrationを使わない教師ありの強化学習!?

強化学習

3つの要点
✔️ Goal-reachingタスクに対する教師ありの強化学習手法 GCSLの提案
✔️ 集めたデータに対して再度ラベル付けをすることでPolicyに対する教師データを作成 (Hindsight Relabelling)

✔️ 他の比較手法と比べて様々なタスクで、通常の強化学習と同様もしくはより良いパフォーマンスを示す

Learning to Reach Goals via Iterated Supervised Learning
written by Dibya GhoshAbhishek GuptaAshwin ReddyJustin FuColine DevinBenjamin EysenbachSergey Levine
(Submitted on 12 Dec 2019 (v1), last revised 2 Oct 2020 (this version, v4))
Comments: Accepted to arXiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Machine Learning (stat.ML)
  

はじめに

ICLR 2020に採択された論文を紹介します。RL(強化学習)は、goal-reaching タスク (ゴールが与えられ、そのゴールに到達するタスク)において、特に報酬がスパースの場合、学習が困難であるという問題点があります。それに対して、Imitation Learning (模倣学習)はexpert demonstrationを利用して教師あり学習によりタスクを解くことが可能ですが、expert demonstrationを集める必要があります。

本記事では、expert demonstrationを利用せずに、学習しているpolicy (方策)が集めたデータをラベリングし直し、そのデータを利用して教師あり学習を行うことによってpolicyを学習する Goal-conditioned supervised learning (GCSL)を紹介します。

続きを読むには

(4130文字画像15枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または
  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする