
嵌入式网络代理 "的挑战,新一代人工智能将物理与数字相结合
三个要点
✔️ 提出了通过整合物理环境和网络信息来行动的 "嵌入式网络代理"
✔️ 创建了一个结合现实三维环境和网络界面的新模拟环境
✔️ 实验表明,人类和人工智能模型之间存在巨大的性能差异,揭示了综合智能面临的挑战
Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
written by Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang
(Submitted on 18 Jun 2025 (v1), last revised 20 Jun 2025 (this version, v2))
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Multimedia (cs.MM); Robotics (cs.RO)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本文重点探讨了传统人工智能代理孤立地处理 "物理空间中的行动 "和 "网络上的知识使用 "这两项功能的问题,并提出了一种整合这两项功能的新框架。研究人员提出了 "嵌入式网络代理"(Embodied Web Agents,EWAs)的概念。
这些代理将感知和操纵现实世界的能力与动态获取和推理网络信息的能力结合起来。这使它们能够始终如一地处理复杂的任务,例如检查现实厨房中的配料、从网上搜索食谱和烹饪。
本文创建了一个结合现实三维场景和网络界面的综合模拟环境,以评估代理在五个领域的能力:烹饪、购物、观光、导航和位置估计。结果表明,与人类相比,当前的人工智能模型在性能上仍存在明显差距,这说明了物理和数字智能集成所面临的挑战和潜力。
建议的方法
拟议的 "嵌入式网络代理 "设计了一个独特的任务环境,以综合方式处理物理和数字环境。
该环境包括:(1) 使用谷歌街景和地球的室外空间;(2) 使用 AI2-THOR 的高清室内模拟;(3) 包括食谱网站、地图和百科全书在内的多个网络接口。
为了整合这些内容,明确定义了状态空间(物理和数字状态)、行动空间(移动、操作和网络操作)和观察空间(视觉和文本输入),代理在环境间自由切换的同时执行任务。此外,还制定了各种场景的基准。具体来说,通过大约 1,500 项任务,如烹饪、购物和旅行,对跨领域推理技能进行了系统评估。
这样的设计使得该系统不仅能执行行动,还能测试高级能力,如规划行动与知识之间的联系,检查感知与文本信息之间的一致性。
实验
在实验中,最新的大规模语言模型(GPT-4o、Gemini 2.0 Flash、Qwen-VL-Plus 和 InternVL2.5)被用于拟议的基准测试,并将其性能与人类进行比较。使用了四个评估指标:总体准确率、网络任务准确率、物理任务准确率和任务完成率。
结果表明,GPT-4o 在导航、购物和旅行任务中的准确率最高,但总体准确率最多只有 30%。特别是在获取网络信息阶段,成功率相对较高,但在物理环境和这些操作的整合方面仍面临巨大挑战。
此外,在烹饪任务中,根据视觉信息进行推理和执行的难度要大得多,总体准确率只有 6% 左右。错误分析表明,总错误中有 60% 以上是 "跨领域错误",即系统未能在不同环境间切换并保持信息一致性,而不是孤立的行为,这凸显了综合智能的瓶颈。
与本文相关的类别