专家示范的无监督强化学习!
三个要点
✔️提出GCSL,一种用于目标达成任务的监督强化学习方法。
✔️通过重新标注所收集的数据,为政策创建监督数据(事后重标)。
✔️与其他比较方法相比,在各种任务上的表现与常规强化学习一样好或更好。
Learning to Reach Goals via Iterated Supervised Learning
written by Dibya Ghosh, Abhishek Gupta, Ashwin Reddy, Justin Fu, Coline Devin, Benjamin Eysenbach, Sergey Levine
(Submitted on 12 Dec 2019 (v1), last revised 2 Oct 2020 (this version, v4))
Comments: Accepted to arXiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Machine Learning (stat.ML)![]()
![]()
首先
这里我们介绍一下ICLR 2020接受的一篇论文:强化学习(RL)有一个问题,就是很难学习目标达成的任务,特别是当奖励稀疏的时候。另一方面,模仿学习可以利用专家示范,通过监督学习解决任务,但需要收集专家示范。
在本文中,我们介绍了目标条件监督学习(GCSL),它通过对被学习的策略(措施)所收集的数据进行重新标注,并利用这些数据进行监督学习,而不需要使用专家演示。学习(GCSL)。
要阅读更多。
你需要在AI-SCHOLAR注册。
或与本文相关的类别