
Task-Relevant Adversarial Imitation Learning:GAIL过时了吗?
3个要点
✔️因果关系混乱导致GAIL表现不佳。
✔️提出TRAIL,约束判别器使用与任务相关的特征。
✔️在各种操作任务上显示出比其他比较方法更好的表现。
Task-Relevant Adversarial Imitation Learning
written by Konrad Zolna, Scott Reed, Alexander Novikov, Sergio Gomez Colmenarejo, David Budden, Serkan Cabi, Misha Denil, Nando de Freitas, Ziyu Wang
(Submitted on 2 Oct 2019)
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Robotics (cs.RO); Machine Learning (stat.ML)![]()
![]()
首先
这是一篇被CoRL 2020接受的论文。近年来,在图像生成方面,生成式对抗网络(GANs)引起了人们的广泛关注。利用类似的机制,一种叫做生成式对抗模仿学习(GAIL)的方法,是一种模仿学习方法,在这种方法中,辨别器学习区分专家和代理人的行为。通过GAIL,我们可以解决普通RL(强化学习)中必须的搜索问题,我们可以解决任务。但是,GAIL的效果没有GAN好。但是,GAIL给出的结果并没有GAN那么好,特别是据说从图像中学习机器人的控制策略是很困难的。
那么问题出在哪里呢? 因果混乱被认为是原因。因果混淆是指系统按错误的因果关系行事的一种现象,当环境中的信息很多时,例如有很多不必要的对象时,就很可能发生。特别是当专家数据数量较少时,据说往往会学到错误的因果关系。下图说明了这一现象。纵轴显示的是与任务相关的特征,横轴显示的是与任务无关的特征。在训练之初,这两个特征都被用来对专家和代理数据进行分类,但随着训练的进行,我们可以看到,数据的分类使用的是与任务无关的特征。
要阅读更多。
你需要在AI-SCHOLAR注册。
或与本文相关的类别