RLV:使用人们解决任务的视频进行强化学习的框架。
三个要点
✔️建议RLV使用离线观测进行强化学习。
✔️解决观测数据和交互数据领域转移的建议模型。
✔️显示出比普通强化学习更高的样本效率结果。
Reinforcement Learning with Videos: Combining Offline Observations with Interaction
written by Karl Schmeckpeper, Oleh Rybkin, Kostas Daniilidis, Sergey Levine, Chelsea Finn
(Submitted on 12 Nov 2020)
Comments: Accepted at CoRL2020
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Robotics (cs.RO)![]()
![]()
![]()
介绍
在本文中,我们介绍了在CoRL 2020上发表的论文"Reinforcement Learning with Videos: Combining Offline Observations with Interactions"。虽然近年来强化学习在学习各种机器人任务方面取得了一定的成效,但仍需要收集各种经验来提高总体性能。然而,获得这样的各种经验是很困难的,这一点从强化学习的样本效率差就可以看出。相比之下,收集人类解决任务的数据是非常容易的。在本研究中,我们重点研究了人类解决任务的离线观察(视频)是否可以帮助强化学习更高效地学习机器人的策略。我们指的是不存在行动和奖励标签的数据。另一方面,我们将(在线)交互数据定义为机器人在环境上执行动作时获得的数据。在这之上。要做到这一点,主要有两个挑战。
允许机器人通过使用观测数据更新其策略(policy)。
2.能够应对交互和观察数据中的行动空间、代理形式、数据视角、环境的差异所造成的领域转变。
事实上,已经有一些方法可以通过观察数据来学习政策。但是,有可能观测数据不能最优地解决任务,因此,学习的策略将不是最优的。而即使我们能收集到完善的观察数据,也说不上能学到一个好政策。然而,由于强化学习可以使用成功和不成功的轨迹来学习政策,因此,它被认为是使用观察数据的一种更有效的方法。基于这些原因,本研究旨在利用观察数据进行强化学习。
下一节将解释拟议的方法。
要阅读更多。
你需要在AI-SCHOLAR注册。
或与本文相关的类别