RLV: 人がタスクを解いているビデオを強化学習に利用するフレームワーク

強化学習 2020年12月09日

3つの要点
✔️ Offline Observationsを強化学習に利用するRLVを提案
✔️ Observation DataとInteraction Dataのドメインシフトを解決するモデルの提案
✔️ 通常の強化学習よりもサンプル効率性が高い結果を示す

Reinforcement Learning with Videos: Combining Offline Observations with Interaction
written by Karl Schmeckpeper, Oleh Rybkin, Kostas Daniilidis, Sergey Levine, Chelsea Finn
(Submitted on 12 Nov 2020)
Comments: Accepted at CoRL2020
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Robotics (cs.RO)

はじめに

本記事では、CoRL 2020で発表された"Reinforcement Learning with Videos: Combining Offline Observations with Interactions"という論文を紹介します。強化学習は、近年様々なロボットを用いたタスクにおいて効果的に学習をすることができていますが、汎化性能を上げるためにはより、様々な経験を集めなければなりません。しかし、そのような様々な経験を得ることは強化学習の問題であるサンプル効率性の悪さからも伺えるように難しいです。それに対して、人間がタスクを解いているデータを集めるのはとても簡単です。この研究では、人間がタスクを解いているoffline Observation (ビデオ)を利用することで、より強化学習が効率的にロボットのpolicyを学習することができるのか、ということに着目しています。Observation dataとは、ビデオのように、actionとrewardのラベルが存在しないデータを指しています。また、それとは異なり、ロボットが環境に対してactionを実行することで得られるデータを (online) interaction dataとします。その上で、これを可能にするためには、主に２つのチャレンジがあります。

1. ロボットがobservation dataを利用してpolicy (方策)を更新することができるようにする
2. Interaction dataとobservation dataにおける、action space (行動空間)、agentの形態、データの視点、そして環境の違いから起こるドメインシフトを対処できるようにする

実は、模倣学習にはすでにこのobservation dataを利用してpolicyの学習を行う手法が提案されています。しかし、observation dataはタスクを最適に解いていない可能性があり、その結果、学習されるpolicyも最適でなくなってしまいます。また、例え完璧なobservation dataを集めることができたとしても、現状あまり良いpolicyを学習することができてないとさています。しかし、強化学習は、成功した軌跡と失敗した軌跡の両方を用いてpolicyを学習することができるので、より効果的にobservation dataを利用することができると考えられます。このような理由から、本研究では強化学習に対して、observation dataを利用することを目的としています。
では、提案された手法について次章で説明していきます。