Offline Reinforcement Learning特集!第三弾
3つの要点
✔️ Model-based RLを利用したOffline RL
✔️ Offline RLは一般的にどのように評価されるべきか
✔️ Offline RLを改善していくための今後の展望
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems
written by Sergey Levine, Aviral Kumar, George Tucker, Justin Fu
(Submitted on 4 May 2020)
Comments: Published by arXiv
Subjects: Machine Learning (cs.LG), Artificial Intelligence (cs.AI), Machine Learning (stat.ML)
はじめに
Offline RL特集第二弾では、Offline RLの中の特にmodel-free RLに関するアルゴリズム、問題点そして今後のチャレンジについて紹介しました。本記事では、model-free RLとは異なる、model-based RLを利用したofflien RLを紹介します。そして、最後にofflien RLはどのように評価されるのか、そして今後の展望について細かく説明していきます。
Model-based Offline RL
本章ではmodel-based RLを使ったOffline RLを紹介します。Model-based RLでは環境の遷移である$T(s_{t+1}|s_{t}, a_{t})$を推定するようなモデル$T_{\psi}\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right)$を学習することが一つの目的です。そして、この学習したモデルを利用して、planning (例えばMPC)もしくはpolicyを学習することで与えられた問題を解きます。これは教師あり学習が可能であり、効果的に大規模なデータセットを利用することができるため、offline RLとも相性が良いように思えます。しかし、Offline RL特集 第二弾でも紹介したdynamic programmingによる方法と同じように、distribution shiftによる影響が問題となります。この章では、このdistribution shiftがどのようにmodel-based RLに影響を与えるか、そしてどのようにしてmodel-based RLがoffline RLに利用されるか、そして今後のチャレンジを一挙に紹介していきます。
続きを読むには
(7410文字画像2枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー