YouTube上的反向强化学习时代?机器人需要向人类学习什么?
三个要点
✔️ 在学习代理和教师代理的硬件不同的情况下,对模仿学习的研究。
✔️ 通过捕捉不同教师代理的演示视频之间的对应关系,使用自我监督学习,学习基于 "任务进展 "的奖励函数,这是一个独立于硬件差异的概念。
✔️ X-MAJICAL被构建为人类到机器人过渡任务的验证数据集,表明即使在学习代理的设备未知的情况下也能学习到有效的奖励函数。
XIRL: Cross-embodiment Inverse Reinforcement Learning
written by Kevin Zakka, Andy Zeng, Pete Florence, Jonathan Tompson, Jeannette Bohg, Debidatta Dwibedi
(Submitted on Mon, 7 Jun 2021)
Comments: CoRL2021
Subjects: Robotics (cs.RO); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。论文中没有提到的数学公式(或论文中没有编号)用罗马字编号。文中有编号的数学公式按文中规定引用。
介绍。
模仿学习(IL)是一种收集教师代理的行为数据并使用统计方法来获得模仿他们的学习代理的方法。其中,它逆向强化学习(IRL)从所需任务的行为数据中表达教师代理的 "意图"。奖励功能然后使用估计的奖励函数强化学习(RL)通过执行以下措施来模仿教师代理政策学习方法。只要奖励函数可以被评估,这个框架就可以在未知环境中学习策略。行为克隆(BC)和其他监督学习方法。因此,逆向强化学习被称为是一种适合在未知情况下需要顺序决策的任务的学习方法,如机器人控制和医疗诊断。
通常情况下,反强化学习假定教师代理和学习代理之间有硬件身份。例如,如果一个机器人要学习执行 "将水倒入杯子 "的任务,那么有必要用与学习代理类似的硬件远程控制一个机器人,并重复执行 "将水倒入杯子 "的动作,并记录机器人各关节的坐标信息。另一方面,如果学习代理的硬件规格发生变化,需要重新进行数据收集,这就增加了项目开始时试错阶段的数据收集成本。以下是需要解决的一些问题。
近年来,教师和学习代理人的硬件身份是不需要的。第三人称模仿学习关注的重点是。在这个框架中,当学习机器人执行所需任务时,人类行为数据被用作教师数据,从而避免了每次学习代理的硬件规格发生变化时的数据收集工作的返工。另一方面。由于教师代理和学习代理之间存在硬件差异(体现差距),教师代理和学习代理的行为之间的对应关系需要通过某种方式获得。
问题1:不仅视频是在不同的环境下、从不同的角度拍摄的,而且专家们使用不同的工具和策略来完成同一任务,目的也不同。
问题二。:人类和机器人之间有一个 "身体差距"(EMBODYMENT GAP)。例如,在 "将五支笔放在一个杯子里 "的任务中,人类可以用手一次舀起五支笔,但双指抓取机器人需要逐一挑选。在这两种情况下,目标都可以实现,但标明人类和机器人行为之间的对应关系是非常困难的。当各种环境和人类演示视频被用作训练数据时,这个问题变得更加尖锐。
本研究的方法:。本研究对行为主体使用一个不变的概念,即任务进展 "并学习基于 "任务进展 "的奖励功能。
建议的方法:这项研究学习了一个反映 "任务进展程度 "的奖励函数,这个概念在不同的操作实体中是不变的。
实验:构建了X-MAGICAL数据集;在X-MAGICAL数据集和现有的人类到机器人转移基准上实现了SOTA性能。
以前的工作
在本节中,我们概述了贝叶斯反强化学习的前期工作(Ramachandran & Amir, 2007)。在下文中,我们假设已经获得了所需任务的行为数据集$\mathcal{D} = \{\tau_1, \tau_2, \cdots, \tau_N \}$。每个行为数据$\tau_n$被表示为一系列数据,由成对的状态$s\in\mathcal{S}$和行为$a\in\mathcal{A}$组成。
$$ \tau = {(s_0, a_0), (s_1, a_1), \cdots, (s_T, a_T)} \tag{a}$$
在贝叶斯的反强化学习中,在$S$状态下的国家行动值。选择使$Q^{\pi}_{R}$最大化的行动$a$是最佳策略$=pi(s)$是假设最优政策$pi(s)$为$Q^{pi}_{R}$。
$$ \pi(s)\in \underset{a\in\mathcal{A}}{operatorname{argmax}}Q^{pi}_{R}(s, a) \tag{b}$$
其中$Q^{\pi}_{R}$是Q函数(状态-行动价值函数),以及在已知奖励函数$R$的环境中,在状态$s$下执行动作$a$,然后遵循政策$pi$。的情况下它代表了预期的总赢得的回报。
$$ Q^{\pi}_{R}(s, a) = \mathbb{E}_{\pi, \mathcal{T}} \left\lbrack \sum_{t}\gamma^{t}R(s_t, a_t)\middle| s_0=s, a_0=a, \pi \right\rbrack \tag{c}$$
其中$gamma\in\lbrack 0, 1)$是贴现率,这是一个超参数,表示在当前决策中考虑未来所得报酬的程度。
贝叶斯反强化学习估计了奖励函数$P(R\mid\mathcal{D})$的后验分布,在此情况下,行为数据$mathcal{D}$得到了。后验分布可以通过贝叶斯定理计算如下:。
$$P(R\mid \mathcal{D}) = \frac{P(\mathcal{D}\mid R)P(R)}{P(\mathcal{D})} \tag{d}$$
$P(R)$是奖励函数的先验分布,如果选择得当,代表奖励函数的先验知识。另外,$P(\mathcal{D}\mid R)$是似然函数,一个代表从假定模型中获得参数的观察值的可信度的量。在贝叶斯反强化学习中,假定似然函数可以用波尔兹曼分布表示,Q函数为能量函数。
$$\begin{align}P(\mathcal{D}\mid R) &= \prod_{n=1}^N P(\tau_n \mid R) \\&\propto \prod_{n=1}^N \sum_{(s, a)\in\tau_n}\exp\left(\beta Q^{\pi}_{R}(s, a)\right)\end{align} \tag{e}$$
其中$\beta\in\lbrack 0, 1)$是反温度,是代表示范者选择最优行为程度的超参数。
在贝叶斯反强化学习中,奖励函数的期望值由后验分布中的样本平均值来近似,而Q函数则使用作为样本平均值得到的奖励函数来估计。在这种情况下,使用MCMC从后验分布中取样,在MCMC内部使用基于奖励函数后验分布的比率的拒绝条件迭代地进行样本选择。另一方面,从公式(e)中可以看出,在贝叶斯反强化学习中,似然函数取决于Q函数,所以每次计算拒绝条件时都需要计算Q函数。因此,它在处理大状态空间的问题设置中的应用被认为在计算复杂性方面很困难。
建议的方法
本文提出了一种不需要从奖励函数的后验分布中取样的算法,这正是传统贝叶斯反强化学习的瓶颈所在。 这里解释了所提方法的目标函数的推导过程。 首先,寻找后验分布 $P(R\mid\mathcal{D})$ 的近似后验分布 $q_{\phi}$ 的问题可以写成分布之间 KL 分歧最小化的问题。
(6)方程。可以根据KL发散的定义进行扩展,并进行如下转换
其中$mathcal{F}(phi)$为变量下限(Evidence Lower BOund,ELBO)。是一个叫做$\mathcal{F}(\phi)$的量,已知变异下限的最大化问题等同于公式(6)的优化问题。此外,通过用方程(e)替换方程(7)中第一项的期望值中的似然函数,目标函数可以写成
这里方程(9)中近似后验分布$q_{\phi}$的期望值计算难以分析,所以用$q_{\phi}$的样本平均数来近似。 这时,由于期望值里面的似然函数取决于Q函数,为了计算样本的平均数,有必要对奖励函数的每个样本计算Q函数。 因此,Q函数的迭代计算成为一个瓶颈,在需要处理大量状态的问题设置中,它仍然是计算复杂性方面的挑战。 因此,所提出的方法引入了一个函数近似值$Q_{\theta}$,代表近似后验分布$q_{\phi}$的奖励函数期望值$\mathbb{E}_{R\sim q_{\phi}}\lbrack R \rbrack$的Q函数,并与近似后验分布$q_{\phi}$同时学习。 在这种情况下,有必要以符合贝尔曼方程的方式更新Q函数和奖励函数。 贝尔曼方程是一个表达式,它给出了Q函数的递归定义,可以用奖励函数$R$写下来,如下。
$$ R(s, a) = \mathbb{E}_{pi, \mathcal{T}}\lbrack Q(s, a) - \gamma Q(s^{\prime}, a^{\prime}) \rbrack \tag{f} $$
因此,可以增加一个约束条件,即$q_{phi}$的负对数似然小于使用代表Q函数的函数近似器$Q_{theta}$计算的奖励函数值中的一个足够小的正数$epsilon$。
$$ -log q_{phi}\left( \mathbb{E}_{pi, \mathcal{T}}\lbrack Q(s, a) - \gamma Q(s^{\prime}, a^{prime}) \rbrack\right) < \epsilon\tag{g} $$
基于上述,可以得到方程(10)中的优化问题是对方程(9)中优化问题的近似。(下面的公式(10)是直接取自论文中的公式,但在约束条件的符号中似乎有一个印刷错误。该约束条件应该由公式(g)正确表达)。
此外,通过使用拉格朗日未定乘数法重写方程(10)中的目标函数,并通过行为数据的样本平均值近似约束条件的期望值,可以得到目标函数$/mathcal{F}(phi, \theta, \mathcal{D})$。
其中$lambda$是一个正常数,决定了约束条件的影响强度。建议的方法是根据方程(10)中$theta$和$phi$的梯度来迭代更新模型。学习算法的伪代码如下所示。
实验
在这项研究中,网格世界任务、连续状态空间上的控制任务,以及在线。医学诊断任务,基于三个不同实验的结果。所提方法的优越性表现在本节介绍了每个实验的内容和结果。
网格世界
任务的目标是通过在棋盘上排列的状态之间的转换达到目标点。在下图中,a)是人工设计的真实奖励函数,b)是教师数据访问每个状态的频率分布,c)是学习的奖励函数的样本平均值,d)是样本标准偏差的热图可视化。a)和c)的结果可以进行比较。比较b)和d),可以看出,在教师数据中访问频率较低的区域(图中的右上角区域),后验分布的样本标准差较大,表明奖励函数的估计存在较高的不确定性。因此,贝叶斯逆向强化学习的优点是可以量化对奖励函数估计的 "信心",从而可以评估策略的安全性。
连续状态空间上的控制任务。
在这个实验中,在OpenAI体育馆的三个不同的机器人控制任务(Acrobat、CartPole和LunarLander)与基准方法进行了比较复杂性样本已经进行了比较。样本复杂度大致是指模型达到足够推理性能所需的教师数据量,较低的样本复杂度方法需要较少的教师数据进行训练。下图中,横轴是教师数据的数量,纵轴是每个控制任务获得的总奖励。图中显示,所提出的方法(AVRIL,粉红色)在两项任务中都取得了与专家相同的性能,教师数据的数量与其他基准方法相似。由于其他基准方法是基于奖励函数的点估计,可以说,所提出的方法能够在类似数量的教师数据下学习到更多的信息结果(奖励函数的后验分布)。
离线医疗诊断任务
近年来,在探索环境的成本很高的任务中,如物理机器人控制,或者探索环境在伦理上有问题的任务中,如医疗诊断,能够做出适当决定的学习策略。离线强化学习(Offline refinforcement learning)。吸引了很多人的注意。在这个实验中,MIMIC-III数据集,其中每隔一天记录一次病人的情况和医生在重症监护室期间的治疗干预,被用来评估与医疗诊断有关的决策任务的性能。有三个指标被用于评估:ACC(ACCuracy)、AUC(接收操作者特征曲线下的面积)和APC(平均精度得分)。下图左侧显示的是 "是否应该安装呼吸机 "的评估结果,而右侧显示的是 "是否应该进行抗生素治疗 "的额外决定时的评估结果。可以看出,所提出的方法(AVRIL)在这两项任务中普遍优于基准方法。这里,A-RL是一个模型,Q函数是从使用所提出的方法学习的奖励函数的后验分布中学习的样本平均值,但基于AVRIL训练过程中获得的Q函数的措施显示出更好的推理性能。
摘要
本文介绍了可扩展的贝叶斯反强化学习。贝叶斯反强化学习学习了奖励函数的后验分布,这使得估计奖励函数推理结果的不确定性成为可能。然而,从计算复杂性的角度来看,传统的方法很难应用于有大量状态的问题设置,如机器人控制任务。本文提出的算法避免了MCMC迭代执行,而MCMC迭代执行一直是传统贝叶斯反强化学习的瓶颈,并且可以扩展到具有大量状态的问题。利用这个框架,可以学习措施来实现目标,同时避免奖励函数的估计准确度低的状态,所以在实际的现实世界任务中,可能会实现安全的模仿学习。你们为什么不都试一试呢?
与本文相关的类别