
Open X-Embodiment:实现通用机器人学习
三个要点
✔️ 以学习多功能机器人为目标
✔️ 根据来自 21 个不同机构的 22 个不同机器人的数据进行学习
✔️ 创建可用于未来训练机器人的数据集
Open X-Embodiment: Robotic Learning Datasets and RT-X Models
written by Open X-Embodiment Collaboration, Abhishek Padalkar, Acorn Pooley, Ajay Mandlekar, Ajinkya Jain, Albert Tung, Alex Bewley, Alex Herzog, Alex Irpan, Alexander Khazatsky, Anant Rai, Anikait Singh, Animesh Garg, Anthony Brohan, Antonin Raffin, Ayzaan Wahid, Ben Burgess-Limerick, Beomjoon Kim, Bernhard Schölkopf, Brian Ichter, Cewu Lu, Charles Xu, Chelsea Finn, Chenfeng Xu, Cheng Chi, Chenguang Huang, Christine Chan, Chuer Pan, Chuyuan Fu, Coline Devin, Danny Driess, Deepak Pathak, Dhruv Shah, Dieter Büchler, Dmitry Kalashnikov, Dorsa Sadigh, Edward Johns, Federico Ceola, Fei Xia, Freek Stulp, Gaoyue Zhou, Gaurav S. Sukhatme, Gautam Salhotra, Ge Yan, Giulio Schiavi, Gregory Kahn, Hao Su, Hao-Shu Fang, Haochen Shi, Heni Ben Amor, Henrik I Christensen, Hiroki Furuta, Homer Walke, Hongjie Fang, Igor Mordatch, Ilija Radosavovic, Isabel Leal, Jacky Liang, Jad Abou-Chakra, Jaehyung Kim, Jan Peters, Jan Schneider, Jasmine Hsu, Jeannette Bohg, Jeffrey Bingham, Jiajun Wu, Jialin Wu, Jianlan Luo, Jiayuan Gu, Jie Tan, Jihoon Oh, Jitendra Malik, Jonathan Booher, Jonathan Tompson, Jonathan Yang, Joseph J. Lim, João Silvério, Junhyek Han, Kanishka Rao, Karl Pertsch, Karol Hausman, Keegan Go, Keerthana Gopalakrishnan, Ken Goldberg, Kendra Byrne, Kenneth Oslund, Kento Kawaharazuka, Kevin Zhang, Krishan Rana, Krishnan Srinivasan, Lawrence Yunliang Chen, Lerrel Pinto, Li Fei-Fei, Liam Tan, Lionel Ott, Lisa Lee, Masayoshi Tomizuka, Max Spero, Maximilian Du, Michael Ahn et al. (83 additional authors not shown)
(Submitted on 13 Oct 2023 (v1), last revised 18 Dec 2023 (this version, v4))
Comments: Published on arxiv.
Subjects: Robotics (cs.RO)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
在语言和视觉建模领域,已经利用预学习模型为各种任务开发了模型。
另一方面,在机器人技术领域,针对特定应用、机器人或环境的学习方法一直是标准做法。因此,我们面临的挑战是开发出适用于不同机器人和环境的通用准确学习模型,如语言和视觉模型。
开展这项研究的目的是,利用在从多个机器人和环境中收集的大型数据集上训练的 RT-X 模型,以通用方式提高机器人动作的准确性。
研究结果表明,RT-X 模型成功地利用了在不同机器人上收集的数据,并在多个机器人上表现出高度精确的行为。这表明,机器人技术具有为任何机器人、环境或任务制作精确模型的潜力。
开放式 X-Embodiment 概览
在这项研究中,我们将从 21 个不同机构的 22 个不同机器人收集到的数据合并在一起,创建了 Open-X Embodiment 数据集。该数据集包含 527 种不同的技能和 160,266 种不同的任务。因此,该数据集反映了非常广泛的机器人操作场景,从而实现了多样化和全面的机器人学习。
这项研究有两个目标
- 结果表明,使用整合了多个不同机器人和环境数据的数据集,比使用单个数据训练的模型效果更好。
- 建立可用于训练未来大型机器人的数据集。
在本研究创建的 Open-X Embodiment 数据集的基础上,开发了一种名为 RT-X 的新模型,该模型采用基于变换器的架构,可将在一个机器人身上学到的知识应用到另一个机器人身上。该模型基于变压器架构,可将在一个机器人身上学到的知识应用到另一个机器人身上。
在这里,RT-1(机器人变压器 1)和 RT-2(机器人变压器 2)在 RT-X 上接受进一步训练。
RT-1 是通过模仿大规模的抓取各种物体的任务演示来学习的模型,使用图像和口头指令作为输入。
RT-2 是一个视觉-语言-动作(VLA)模型,通过网络数据和机器人数据的同步微调进行训练。
在下文中,在 "开放 X 实验数据集 "中训练的 RT-1 和 RT-2 将分别称为 RT-1-X 和 RT-2-X。
有关 RT-1 的更多信息,请参阅本文。
实验结果
在实验中,对六种不同的机器人进行了 3600 次评估试验,以观察不同型号机器人的性能差异。
不同规模的绩效评估结果
首先,我们来看看小数据集的情况。上图比较了模型在每个数据集上的表现。
在五个数据集中的四个数据集上,RT-1-X 的表现优于在相应机器人数据集上训练的方法。此外,RT-1-X 的平均成功率比 RT-1 和其他模型高出 50%。
实验结果表明,对于小型数据集来说,X-Embodiment 数据中的联合训练可以产生显著效果。
接下来,让我们看看大型数据集的情况。上表比较了每个模型在大型数据集上的性能。在大型数据集上,RT-1-X 模型的准确率没有超过 RT-1。
不过,更大的 RT-2-X 模型的性能优于在相应数据集上训练的模型和 RT-1。这些结果表明,在有足够数据训练机器人的领域,足够大的架构可以提高性能。
改进对数据中没有的任务的响应
接下来,我们将研究使用 X-Embodiment数据集的训练模型如何应对数据中没有的设置以及更复杂和新的指令。在本实验中,我们使用 RT-2-X 模型,将其限制在大型数据域中。结果如上表所示。
对未知物体和背景的泛化性能可以通过表格右侧的 RT-2 泛化评估数字来确定。表中第(1)行和第(2)行显示,RT-2 和 RT-2-X 几乎相当,分别为 62% 和 61%。
另一方面,让我们来看看他们应对从未学过的任务的能力如何。这可以从上表中的 "新技能评估 "条目中看出。比较第(1)行和第(2)行,RT-2-X 在新技能评估方面比 RT-2 高出约三倍。
RT-2-X 的性能提高了三倍,现在甚至能够确定介词之间的细微差别。例如,RT-2 无法掌握指令中 on 和 near 等介词之间的区别,但 RT-2-X 现在甚至能够识别介词之间的细微差别。实验结果表明,通过将其他机器人的数据纳入训练,RT-2-X 可能能够处理以前无法处理的任务。
该表还显示
- 对 (4) 和 (5) 的比较表明,如果包含历史数据,泛化效果会更好。
- 对 (4) 和 (6) 的比较表明,网络数据的预训练提高了泛化性能。
- 对 (2) 和 (4) 的比较表明,模型越大,新兴技能评估就越好。
这些实验结果表明,使用整合了不同机器人数据的大型数据集可以提高每个机器人的性能。
摘要
该研究提出了一个综合数据集,其中包含从 21 个不同组织的 22 个不同机器人中收集的 527 种技能和 160,266 项任务,并利用这些数据对模型进行了评估。
结果表明,RT-1-X 的成功率比其他机构提供的相应数据集中的方法高出 50%,而基于视觉语言模型的更大型模型 RT-2-X 的泛化性能比 RT-2 高出约三倍。
RT-X 模型的实验结果表明,机器人学习有可能以通用方式提高精确度,但现阶段还存在一些挑战。
例如,在这种情况下,就没有考虑到传感器和执行器截然不同的机器人。
希望能建立一种通用的机器人学习方法,逐一解决这些问题。
与本文相关的类别