最新AI論文をキャッチアップ

Open X-Embodiment:ロボットの汎用的な学習を目指して

Open X-Embodiment:ロボットの汎用的な学習を目指して

robot

3つの要点
✔️ 汎用性のあるロボットの学習を目指す
✔️ 21の機関の22種類のロボットのデータをもとに学習

✔️ 今後もロボットの学習に利用できるデータセットの作成

Open X-Embodiment: Robotic Learning Datasets and RT-X Models
written by 
Open X-Embodiment CollaborationAbhishek PadalkarAcorn PooleyAjay MandlekarAjinkya JainAlbert TungAlex BewleyAlex HerzogAlex IrpanAlexander KhazatskyAnant RaiAnikait SinghAnimesh GargAnthony BrohanAntonin RaffinAyzaan WahidBen Burgess-LimerickBeomjoon KimBernhard SchölkopfBrian IchterCewu LuCharles XuChelsea FinnChenfeng XuCheng ChiChenguang HuangChristine ChanChuer PanChuyuan FuColine DevinDanny DriessDeepak PathakDhruv ShahDieter BüchlerDmitry KalashnikovDorsa SadighEdward JohnsFederico CeolaFei XiaFreek StulpGaoyue ZhouGaurav S. SukhatmeGautam SalhotraGe YanGiulio SchiaviGregory KahnHao SuHao-Shu FangHaochen ShiHeni Ben AmorHenrik I ChristensenHiroki FurutaHomer WalkeHongjie FangIgor MordatchIlija RadosavovicIsabel LealJacky LiangJad Abou-ChakraJaehyung KimJan PetersJan SchneiderJasmine HsuJeannette BohgJeffrey BinghamJiajun WuJialin WuJianlan LuoJiayuan GuJie TanJihoon OhJitendra MalikJonathan BooherJonathan TompsonJonathan YangJoseph J. LimJoão SilvérioJunhyek HanKanishka RaoKarl PertschKarol HausmanKeegan GoKeerthana GopalakrishnanKen GoldbergKendra ByrneKenneth OslundKento KawaharazukaKevin ZhangKrishan RanaKrishnan SrinivasanLawrence Yunliang ChenLerrel PintoLi Fei-FeiLiam TanLionel OttLisa LeeMasayoshi TomizukaMax SperoMaximilian DuMichael Ahn et al. (83 additional authors not shown)
(Submitted on 13 Oct 2023 (v1), last revised 18 Dec 2023 (this version, v4))
Comments: Published on arxiv.

Subjects: Robotics (cs.RO)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。   

はじめに

言語モデルやヴィジョンモデルの分野では、事前学習モデルを用いて様々なタスクに対応できるモデルが開発されてきました。

一方、ロボティクスの分野では、特定のアプリやロボット、環境に特化した学習手法が主流でした。そのため、言語モデルやヴィジョンモデルのように、異なるロボットや環境に対しても、汎用的に精度を上げられる学習モデルの開発が課題となっています。

本研究は、複数のロボットと環境で収集した大規模なデータセットを用いて学習したRT-Xモデルを用いて、ロボットの動作の精度を汎用的に向上させることを目標に実施されました。

この研究の結果、RT-Xモデルは異なるロボットで収集したデータの活用に成功し、複数のロボットにおいて高い精度の行動を示しました。これは、ロボティクス分野においても、どのようなロボットや環境、タスクでも精度の高いモデルが作成できる可能性を示しています。

Open X-Embodimentの概要

この研究では、21の機関の22種類のロボットから収集したデータを統合し、Open-X Embodiment Datasetを作成しました。このデータセットは527種類のスキル、160,266の異なるタスクを含んでいます。そのため、このデータセットには、非常に幅広いロボット操作のシナリオが反映されており、多様で包括的なロボット学習ができるようになっています。

この研究の目標は以下の2つです。

  1. 複数の異なるロボットや環境で得られたデータを統合したデータセットを利用すると、それぞれ個別のデータで学習したモデルよりも性能が高いことを示す。
  2. 将来の大規模なロボットの学習に利用できるデータセットを構築する。

本研究では、今回作成したOpen-X Embodiment Datasetをもとにして、RT-Xと呼ばれる新しいモデルを開発しました。RT-Xモデルは、Transformerベースのアーキテクチャを採用し、あるロボットで学習した知識を別のロボットに適用できるようになっています。

ここでは、RT-1(Robotics Transformer 1)、RT-2(Robotics Transformer 2)をRT-Xでさらに学習させたものを使用します。

RT-1は、画像と言語指示を入力に,様々な物体をつかむ課題を大規模なデモンストレーションの模倣学習で学習したモデルです。

RT-2は、Webデータとロボティクスのデータで同時にファインチューニングし,学習したvision-language-action (VLA)モデルです。

以下では、Open X-Embodiment Datasetで学習したRT-1、RT-2をそれぞれRT-1-X、RT-2-Xと呼ぶことにします。

RT-1については、こちらの記事が詳しいです。

実験結果

実験では、それぞれのモデルでどのように性能に違いが見られるかを観察するために、6種類のロボットで3600回の評価実験を行いました。

異なる規模での性能評価の結果

まず、小規模のデータセットの場合を見てみましょう。上の図はそれぞれのデータセットでのモデルの性能を比較しています。

RT-1-Xの性能は、5つのデータセットのうち4つのデータセットにおいて、それぞれのロボットのデータセットで学習した手法を上回っています。さらに、RT-1-Xの平均成功率は、RT-1やその他のモデルよりも50%高いという結果になりました。

この実験結果は、小規模のデータセットの場合、X-Embodiment Dataでのco-trainingが大きな成果をもたらすことを示しています。

次は、大規模データセットの場合を見てみましょう。上の表は大規模データセットでのそれぞれのモデルの性能を比較しています。大規模データセットでは、RT-1-Xモデルは、RT-1の精度を上回りませんでした。

しかし、より大規模なRT-2-Xモデルの性能は、それぞれのデータセットで学習したモデルとRT-1の両方を上回りました。この結果から、十分に大規模なアーキテクチャを利用した場合は、ロボットの学習に十分なデータが存在する領域において、性能が向上することが示唆されます。

データにないタスクへの対応の改善

次に、X-Embodiment Datasetを用いた学習モデルが、データにない設定や、より複雑で新しい命令に対して、どのように対応するのかをみていきます。こちらの実験では、大規模データ領域に限定して、RT-2-Xモデルを使用します。その結果、上の表のような結果になりました。

未知の物体や背景に対する汎化性能は表の右端のRT-2 Generalization Evaluationの数値から判断できます。表の(1)と(2)の行からRT-2とRT-2-Xはそれぞれ62%と61%となり、ほぼ同等であることがわかりました。

一方、学習したことがないタスクに対してどれだけ対応できるのかを見てみましょう。これは、上の表では、Emergent Skills Evaluationの項目から判断できます。(1)と(2)の行を比較すると、Emergent Skills Evaluationの数値で、RT-2-XはRT-2を約3倍上回っています。

性能が約3倍になったことにより、RT-2-Xは前置詞の細かい違いまで判断できるようになりました。例えば、RT-2では、指示中にあるonやnearのような前置詞の違いが把握できていませんでしたが、RT-2-Xはそのような前置詞のわずかな違いも判別できるようになりました。この実験結果から、他のロボットのデータを学習に取り入れることで、これまで対応できなかったタスクも対応できるようになる可能性が出てきました。

他にも、表から以下のことがわかります。

  • (4)と(5)の比較から、履歴を含む方が汎化性能が向上する。
  • (4)と(6)の比較から、Webデータでの事前学習によって汎化性能が向上する。
  • (2)と(4)の比較から、モデルの規模が大きいほどEmergent Skills Evaluationが向上する。

これらの実験結果から、別のロボットのデータを統合した大規模データセットを利用することで、それぞれ個別のロボットの性能が向上することが示唆されます。

まとめ

本研究では、21の機関の22種類のロボットから収集した527のスキル、160,266タスクを含むデータを統合したデータセットを発表し、それを利用したモデルを評価しました。

その結果、RT-1-Xは、他の機関から提供されたそれぞれデータセットの手法よりも50%高い成功率を示し、より大きなvision-languageモデルベースのモデルであるRT-2-Xは、RT-2よりも約3倍汎化性能が向上しました。

RT-Xモデルの実験結果から、汎用的に精度を向上するロボット学習ができる可能性が出てきましたが、現段階では課題もあります。

例えば、今回の場合、センサーやアクチュエータが大きく異なるロボットを考慮に入れていないことなどが挙げられます。

このような課題を一つひとつ解決しながら、汎用的なロボットの学習手法が確立されることが望まれます。

 

植田康太郎 avatar
大学院生/データサイエンス、AI系Webライター。現在、Pythonを用いた機械学習、真相学習について勉強しています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする