
物理とデジタルを融合する次世代AI『Embodied Web Agents』の挑戦
3つの要点
✔️ 物理環境とウェブ情報を統合して行動する「Embodied Web Agents」を提案
✔️ 現実的な3D環境とウェブインタフェースを組み合わせた新しいシミュレーション環境を構築
✔️ 実験で人間とAIモデルに大きな性能差があり、統合型知能の課題が明らかに
Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
written by Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang
(Submitted on 18 Jun 2025 (v1), last revised 20 Jun 2025 (this version, v2))
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Multimedia (cs.MM); Robotics (cs.RO)
code:
概要
本論文では、従来のAIエージェントが「物理空間での行動」と「ウェブ上での知識利用」という二つの機能を分離して扱っていた点に着目し、それらを統合する新たな枠組みを提案しています。研究者たちは、「Embodied Web Agents(EWA)」という概念を打ち立てました。
このエージェントは、現実世界を知覚・操作する能力と、オンライン上の情報を動的に取得・推論する能力を融合させています。これにより、例えば現実のキッチンで材料を確認し、ウェブからレシピを検索して調理を行う、といった複雑なタスクを一貫して処理できるようになります。
論文では、現実的な3Dシーンとウェブインタフェースを組み合わせた統合シミュレーション環境を構築し、料理、買い物、観光、ナビゲーション、位置推定の5つの領域でエージェントの能力を評価しました。その結果、人間と比較して現行のAIモデルが依然として大きな性能差を抱えていることが明らかとなり、物理・デジタル統合型インテリジェンスの課題と可能性が示されています。
提案手法
提案された「Embodied Web Agents」は、物理環境とデジタル環境を統合的に扱うために、独自のタスク環境を設計。
この環境は、(1)Google Street ViewやEarthを用いた屋外空間、(2)AI2-THORによる高精細な屋内シミュレーション、(3)レシピサイトや地図、百科事典など複数のウェブインタフェースから構成されています。
これらを統合するために、状態空間(物理・デジタルの状態)、行動空間(移動・操作・ウェブ操作)、観測空間(視覚・テキスト入力)を明示的に定義し、エージェントは環境間を自在に切り替えながらタスクを進行させます。さらに、多様なシナリオを用意したベンチマークを策定。具体的には、約1,500件のタスクを通じて、調理や買い物、旅行などでのクロスドメイン推論力を体系的に評価します。
こうした設計により、単なる行動の実行にとどまらず、行動と知識の連携計画、知覚とテキスト情報の整合性確認といった高度な能力が試される仕組みになっています。
実験
実験では、提案ベンチマークにおいて最新の大規模言語モデル(GPT-4o、Gemini 2.0 Flash、Qwen-VL-Plus、InternVL2.5)を用い、その性能を人間と比較。評価指標は、全体精度、ウェブタスク精度、物理タスク精度、タスク達成率の4つです。
結果として、ナビゲーション・買い物・旅行タスクではGPT-4oが最も高い精度を示したものの、全体精度は最大でも30%台にとどまりました。特に、ウェブ情報を取得する局面では比較的高い成功率が得られましたが、物理環境での行動やそれらの統合に大きな課題が残ることに。
また、調理タスクにおいては、視覚情報からの推論と実行が著しく難しく、全体精度が6%程度にとどまりました。エラー分析では、行動の分離ではなく、環境間の切り替えや情報の整合性保持に失敗する「クロスドメインエラー」が全体の6割以上を占めたことが示され、統合型知能におけるボトルネックが浮き彫りになりました。
この記事に関するカテゴリー