不需要完善的专家,对应不完善专家的模仿学习
三个要点
✔️用于基线模仿学习的GAIL的扩展。
✔️可与其他强化和模仿学习方法相媲美,即使是不完美的专家。
✔️在对抗式学习的Discriminator与Generator结构之外,增加第三个网络行动指南网络。
Adversarial Imitation Learning from Incomplete Demonstrations
written by Mingfei Sun, Xiaojuan Ma
(Submitted on 29 May 2019 (v1), last revised 23 Jun 2019 (this version, v3))
Comments: Accepted at International Joint Conference on Artificial Intelligence (IJCAI-19)
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Machine Learning (stat.ML)
Paper Official Code COMM Code
介绍
这里介绍的论文提出了生成式对抗模仿学习(GAIL)的扩展,GAIL已被用作近期模仿学习研究的基线。与强化学习相比,模仿学习不需要人工设计奖励,可以向专家学习最佳策略。因此,它可以用于复杂的多维度问题,如机器人控制,很难设计奖励。但是,模仿的精确性取决于专家,可能包含低质量的数据,学习者作为专家无法使用,这对学习过程会产生负面影响。这一点可以通过思考现实世界的任务来轻松想象。用本文的一个例子来说,如果我们用模仿学习的方法将人类举杯的动作应用到机器人身上,可以通过视觉获取人体的动作(状态),但无法将人类关节的力和扭矩(动作)应用到机器人身上。此外,据说要获得完美的专家行为是很难的,因为即使在同一状态下,机器人的行为也会因为人类的知识和偏好等个体因素而改变。本文的方法表明,即使在专家不完整的情况下,该方法也可以获得与给予真实奖励所获得的分数相当的分数。
要阅读更多。
你需要在AI-SCHOLAR注册。
或与本文相关的类别