赶上最新的AI论文

专家示范的无监督强化学习!

强化学习

三个要点
✔️提出GCSL,一种用于目标达成任务的监督强化学习方法。
✔️通过重新标注所收集的数据,为政策创建监督数据(事后重标)。

✔️与其他比较方法相比,在各种任务上的表现与常规强化学习一样好或更好。

Learning to Reach Goals via Iterated Supervised Learning
written by Dibya GhoshAbhishek GuptaAshwin ReddyJustin FuColine DevinBenjamin EysenbachSergey Levine
(Submitted on 12 Dec 2019 (v1), last revised 2 Oct 2020 (this version, v4))
Comments: Accepted to arXiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Machine Learning (stat.ML)
  

首先

这里我们介绍一下ICLR 2020接受的一篇论文:强化学习(RL)有一个问题,就是很难学习目标达成的任务,特别是当奖励稀疏的时候。另一方面,模仿学习可以利用专家示范,通过监督学习解决任务,但需要收集专家示范。

在本文中,我们介绍了目标条件监督学习(GCSL),它通过对被学习的策略(措施)所收集的数据进行重新标注,并利用这些数据进行监督学习,而不需要使用专家演示。学习(GCSL)。

要阅读更多。

你需要在AI-SCHOLAR注册。

1分钟内免费轻松注册

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们