最新AI論文をキャッチアップ

Offline Reinforcement Learning特集!第三弾

Offline Reinforcement Learning特集!第三弾

強化学習

3つの要点
✔️ Model-based RLを利用したOffline RL
✔️ Offline RLは一般的にどのように評価されるべきか

✔️ Offline RLを改善していくための今後の展望

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems
written by Sergey LevineAviral KumarGeorge TuckerJustin Fu
(Submitted on 4 May 2020)
Comments: Published by arXiv
Subjects: Machine Learning (cs.LG), Artificial Intelligence (cs.AI), Machine Learning (stat.ML)

はじめに

Offline RL特集第二弾では、Offline RLの中の特にmodel-free RLに関するアルゴリズム、問題点そして今後のチャレンジについて紹介しました。本記事では、model-free RLとは異なる、model-based RLを利用したofflien RLを紹介します。そして、最後にofflien RLはどのように評価されるのか、そして今後の展望について細かく説明していきます。

Model-based Offline RL

本章ではmodel-based RLを使ったOffline RLを紹介します。Model-based RLでは環境の遷移である$T(s_{t+1}|s_{t}, a_{t})$を推定するようなモデル$T_{\psi}\left(\mathbf{s}_{t+1} \mid \mathbf{s}_{t}, \mathbf{a}_{t}\right)$を学習することが一つの目的です。そして、この学習したモデルを利用して、planning (例えばMPC)もしくはpolicyを学習することで与えられた問題を解きます。これは教師あり学習が可能であり、効果的に大規模なデータセットを利用することができるため、offline RLとも相性が良いように思えます。しかし、Offline RL特集 第二弾でも紹介したdynamic programmingによる方法と同じように、distribution shiftによる影響が問題となります。この章では、このdistribution shiftがどのようにmodel-based RLに影響を与えるか、そしてどのようにしてmodel-based RLがoffline RLに利用されるか、そして今後のチャレンジを一挙に紹介していきます。

続きを読むには

(7410文字画像2枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または
  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする