最新AI論文をキャッチアップ

RoboTwin 2.0:両腕操作ロボットのためのスケーラブルな合成データ生成とベンチマーク設計

RoboTwin 2.0:両腕操作ロボットのためのスケーラブルな合成データ生成とベンチマーク設計

LLM-Paper

3つの要点
✔️ RoboTwin 2.0は、両腕ロボット操作のための高品質な合成データを自動生成するフレームワーク
✔️ MLLMとシミュレーションを組み合わせた閉ループ方式で、専門レベルの操作コードを生成・修正
✔️ ドメインランダム化と多様なロボット対応により、実環境でも高い汎化性能と頑健性を実現

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation
written by Tianxing ChenZanxin ChenBaijun ChenZijian CaiYibin LiuQiwei LiangZixuan LiXianliang LinYiheng GeZhenyu GuWeiliang DengYubin GuoTian NianXuanbing XieQiangyu ChenKailun SuTianling XuGuodong LiuMengkang HuHuan-ang GaoKaixuan WangZhixuan LiangYusen QinXiaokang YangPing LuoYao Mu
(Submitted on 22 Jun 2025)
Comments: Project Page: this https URL

Subjects: Robotics (cs.RO); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Multiagent Systems (cs.MA)

概要

ロボットによる両腕操作は、組み立て作業や道具の使用、物体の受け渡しといった現実世界の複雑な作業に不可欠です。しかし、実環境における大規模なデータ収集は時間・コスト両面で困難であり、学習した操作方針の汎化性も限定的です。これを解決するために、本研究では「RoboTwin 2.0」と呼ばれる大規模かつ高多様性なデータ生成・ベンチマークフレームワークが提案されました。

RoboTwin 2.0では、マルチモーダル言語モデル(MLLM)を活用してロボット操作プログラムを自動生成し、シミュレーションを通じて修正・強化を行う閉ループ方式を採用しています。さらに、背景・照明・物体配置・指示文など5軸にわたる強力なドメインランダム化を導入することで、視覚・物理・言語の多様性を大幅に向上させ、実環境での頑健性を高めています。

本システムは、731種類の物体と50種類の両腕タスクに対応し、100,000件以上の専門軌道データを事前収集。実験では、コード生成精度の向上、異なるロボットアームへの適応、ゼロショットでの実環境への一般化能力を実証しました。

提案手法

RoboTwin 2.0は、高品質な両腕ロボット操作データを自動生成するためのスケーラブルなフレームワークです。本手法は主に、①マルチモーダルなコード生成エージェント、②ドメインランダム化、③ロボットアーム固有の適応モジュールという3つの要素で構成されます。

まず、自然言語で記述されたタスク指示に対し、MLLMが初期コードを自動生成します。このコードは、シミュレーション環境で10回ずつ実行され、視覚と言語に対応したVLM(Vision-Language Model)によって動作ログと失敗原因が分析されます。これに基づき、コードは反復的に修正され、成功率が50%以上になるまで改善が続けられます。

次に、ドメインランダム化により、物体の配置、背景テクスチャ、照明、テーブル高さ、指示文の多様性が導入されます。これにより、モデルは多様な視覚的・物理的環境に対する頑健性を獲得します。

さらに、5種類の異なるロボット(Franka、UR5など)に対応するため、物体ごとに多様な把持候補を準備し、ロボットの自由度に応じた把持動作を適応的に生成する設計も取り入れられています。

実験

本研究では、RoboTwin 2.0の効果を複数の観点から実証しました。まず、10種類のタスクにおいて、自動コード生成の成功率を従来手法(RoboTwin 1.0)と比較したところ、視覚・言語情報を用いたフィードバックを組み込むことで、成功率が最大71.3%に達し、大幅な改善が確認されました。

次に、ドメインランダム化の有無による頑健性の差を検証した結果、RoboTwin 2.0で学習したモデルは未見環境でも20%以上の成功率向上を示しました。また、リアル環境での4タスクに対するゼロショット検証においても、見たことのない背景や雑然としたシーン下で、20%以上の成功率改善が確認されました。

さらに、RoboTwin 2.0で訓練したモデルは、RoboTwinベンチマークの「ハード設定」(乱雑な環境)においても最も高い成功率を記録し、他手法との差を明確に示しました。これらの結果から、RoboTwin 2.0が多様かつ実用的なデータ生成基盤であり、実環境への一般化能力を大幅に高めることが実証されました。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする