Parrot: 多様なデータを用いた事前学習による強化学習のサンプル効率性の向上

強化学習 2020年12月14日

3つの要点
✔️ 多様なデータセットからBehavioral Priorを学習することによりRLの学習を加速するPARROTを提案
✔️ Behavioral Priorを学習することにより、より効率的な探索が可能
✔️ ベースラインと比較してPARROTが少ないサンプルで高いタスクの成功率を示す

PARROT: Data-Driven Behavioral Priors for Reinforcement Learning
written by Avi Singh, Huihan Liu, Gaoyue Zhou, Albert Yu, Nicholas Rhinehart, Sergey Levine
(Submitted on 19 Nov 2020)
Comments: Accepted at arXiv Under review as a conference paper at ICLR2021
Subjects: Machine Learning (cs.LG); Robotics (cs.RO)

はじめに

本記事では、"Parrot: Data-Driven Behavioral Priors For Reinforcement Learning"という論文を紹介します。強化学習では、基本的に新しいタスクが与えられたとき、そのタスクに関するサンプルを多く集めなければならないという問題点があります。しかし、自然言語処理や画像系のタスクにおいては、大規模のデータセットを用いて事前学習を行うことにより、新たなタスクに関するデータが少なくとも効果的に学習することができています。そこで、本論文では、強化学習において同様に効果的な事前学習を行うことができるか？という問いに対して取り組み、Prior AcceleRated ReinfOrcemenT (PARROT)という手法を提案しました。

では、どのようなrepresentation (表現)が果たして強化学習に対して効果的なのでしょうか。これは、新たなタスクが与えられたときに、representationが

効果的な探索の戦略を与える
policy (方策)の学習を簡略化させる
環境に対してRL agentの全制御を許可する

というように本論文では挙げています。これらのチャレンジを克服するために、本論文ではnoise vectorsから高次元のaction spaceに対してのマッピングを行う、invertible function (可逆関数)を学習します。このinvertible functionを学習することにより、オリジナルのMDPの構造が学習データに含まれているMDPの構造と被っている際において、オリジナルのMDP (Markov Decision Process)をより単純なMDPに変換することができ、学習を単純化させる事ができます。また、このマッピングが可逆であるために、RL agentは、すべての取りうる可能なactionに対して、Gaussian distribution上にそのactionにマッピングするような点が存在するという、オリジナルのMDPに対して全制御の性質を得ることができます。

この論文のポイントは多用なmulti-taskデータセットから事前学習を行うことでbehavioral priorを学習し、新たなスキルを獲得するための学習を加速することができるフレームワーク PARROT を提案したことです。では次の章にて、具体的な手法について説明していきます。

続きを読むには

(6191文字画像11枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または