
DualTHORとは何か?双腕ロボットの現実適応力を高める次世代シミュレータ
3つの要点
✔️ 現実的な双腕ヒューマノイド操作を再現する高精度シミュレータ「DualTHOR」を提案
✔️ コンティンジェンシー機構により、行動失敗を含む現実的なタスク評価が可能
✔️ 現行VLMは双腕協調や再計画に弱く、DualTHORがその限界を明らかにした
DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning
written by Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Yehui Tang, Zongqing Lu
(Submitted on 19 Jun 2025)
Comments: Published on arxiv.
Subjects: Robotics (cs.RO)![]()
概要
本論文では、現実世界における双腕ヒューマノイドロボットのタスク遂行を模擬し、その計画能力や頑健性を評価するための高精度なシミュレーションプラットフォーム「DualTHOR」が提案されています。従来の多くのシミュレータは、車輪型や単腕のロボットを中心に設計されており、物理的な不確実性や失敗の可能性を省略する傾向にありました。そのため、現実世界への適用には限界がありました。
DualTHORは、AI2-THORを拡張した形で構築され、双腕ロボット(Unitree H1およびAgibot X1)に対応した多様なタスクスイート、物理ベースのインバースキネマティクス、連続的な動作制御、さらに実行中の失敗(破損・こぼれなど)を模倣する「コンティンジェンシー機構」を備えています。この機構により、計画中の意図と現実の不確実性とのギャップを埋めることが可能となり、実世界への適応力の高いエージェント育成が期待されます。
また、最新のVLM(Vision-Language Model)を用いたベースライン評価も実施され、現行のモデルでは双腕タスクや不確実性への対応に課題が残ることが示されました。
提案手法
DualTHORは、AI2-THORの基本設計を踏襲しつつ、ヒューマノイド型双腕ロボットを前提とした設計です。主に以下の三つの要素から構成されています。
一つ目は、双腕タスクのための専用タスク設計です。片腕では実現困難な動作(例:一方の手でカップを持ち、もう一方で水を注ぐ)を想定し、複雑な操作が必要な家庭内タスクが豊富に定義されています。タスクは「双腕必須」「双腕オプション」「単腕タスク」に分類され、モデルの汎化能力と柔軟性を高める設計となっています。
二つ目は、物理的に連続したアクション制御です。従来の「瞬間的な状態遷移」ではなく、Unityエンジンとインバースキネマティクス(IK)を活用して、滑らかな動作が再現。IKはX1とH1で構成が異なり、X1では単独アーム制御、H1では全身調整を伴う双腕協調制御が実現されています。
三つ目は、コンティンジェンシー機構です。アクションごとに一定の確率で失敗(例:カップが割れる、液体がこぼれる)が発生するよう設計されており、モデルがリカバリープランを考える必要性が生じます。この仕組みにより、計画失敗時の再構築能力も含めて評価可能に。
実験
実験では、10種類の部屋、68種類のオブジェクト、356個のタスクを対象に、GPT-4oやGemini 1.5 Proなどの大規模VLM、Qwen2.5-VLなどのオープンモデル、およびDAG-Planのような構造化プロンプトを使ったモデルが評価されました。
評価は「双腕必須」「双腕オプション」「単腕」の3カテゴリに分け、さらに行動成功率が異なる3つの難易度(Easy、Medium、Hard)を設けて、多様な条件下での成功率を比較。
結果として、既存のVLMはいずれのカテゴリにおいても双腕必須タスクの成功率が低く、特に複雑なタスクやコンティンジェンシー下では著しく性能が低下しました。たとえば、DAG-Planでも双腕タスクでの成功率は40%程度に留まり、動的な再計画やアームの相互干渉を十分に扱えない例も確認されたとのこと。
また、実験では「連続的な物理レンダリング」(例:水が徐々に溜まる描写)も用いられ、VLMが視覚的変化を追従して理解・計画を更新できるかも確認。このような設計により、DualTHORは現行技術の限界を露わにし、今後のVLM発展に向けた明確な課題提示となっています。
この記事に関するカテゴリー