Parrot：通过多样化数据的先验学习，提高强化学习的样本效率

强化学习 14/12/2020

三个要点
✔️提出的PARROT通过从不同的数据集中学习Behavioral Prior来加速RL的学习。
✔️学习行为先导能让探索更高效。
✔️与基线相比，PARROT较少的样本中任务成功率更高。

PARROT: Data-Driven Behavioral Priors for Reinforcement Learning
written by Avi Singh, Huihan Liu, Gaoyue Zhou, Albert Yu, Nicholas Rhinehart, Sergey Levine
(Submitted on 19 Nov 2020)
Comments: Accepted at arXiv Under review as a conference paper at ICLR2021
Subjects: Machine Learning (cs.LG); Robotics (cs.RO)

介绍

在本文中，介绍了"Parrot: Data-Driven Behavioral Priors For Reinforcement Learning"这篇论文。强化学习的问题是，当给你一个新的任务时, 必须收集大量关于该任务的样本。然而，对于自然语言处理和图像任务，在大型数据集上进行预训练，至少可以有效地学习有关新任务的数据。因此，在本文中，我们能否在强化学习中进行同样有效的预学习？并提出了一种名为Prior AcceleRated ReinfOrcemenT（PARROT）的方法。

那么，什么样的表示方式对强化学习是有效的呢？这是因为，当你被赋予一个新的任务时，表示是

给你一个有效的搜索策略。
简化政策学习
允许完全控制RL代理的环境。

在本文中，列举了以下几点：为了克服这些挑战，本文进行了从噪声向量到高维动作空间的映射，也就是?训练可逆函数。通过学习这个可逆函数，当原MDP（马尔科夫决策过程）的结构被训练数据中包含的MDP的结构所覆盖时，可以将原MDP转换为更简单的MDP，并训练成它可以被简化。此外，由于这种映射是可逆的，RL代理获得了对原始MDP的完全控制属性，即对于每一个可能的动作，高斯分布上都有一个点映射到该动作上，而它是。

本论文的重点是提出PARROT，这是一个可以通过从多个多任务数据集学习之前的行为学习来加速学习获得新技能的框架。在下一节中，我们将详细介绍该方法。

要阅读更多。

你需要在AI-SCHOLAR注册。

1分钟内免费轻松注册

或