
模拟人工智能代理与他人在虚拟环境中协作的框架现已推出!
三个要点
✔️ 提出将 LLMs 用于多代理模拟的新框架
✔️ 利用两个基准进行代理对代理或人对代理的实验
✔️ 实验结果显示 LLMs 在协同工作中的规划和通信能力分析的能力
Building Cooperative Embodied Agents Modularly with Large Language Models
written by Hongxin Zhang, Weihua Du, Jiaming Shan, Qinhong Zhou, Yilun Du, Joshua B. Tenenbaum, Tianmin Shu, Chuang Gan
(Submitted on 5 Jul 2023)
Comments: Project page: this https URL
Subjects: Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍。
大型语言模型(LLM)被建议用于理解自然语言并获得复杂的推理能力,在各种领域都表现出了卓越的性能。
最近,我们进行了一系列实验,要求使用 LLM 生成的单个代理模拟人类行为,结果表明它可以作为复杂任务的良好规划者。
另一方面,尽管生成的代理与其他代理和人类协作需要适当的通信,但目前还没有针对多代理或人类协作的研究来展示这些能力。
在此背景下,本文提出了在多代理模拟中使用 LLM 的新框架,并首次通过虚拟环境中的实验,对LLM 在协同工作中的规划和沟通能力进行了系统分析。
具有大规模语言模型的协作代理框架。
本文提出了一个由观察模块、信念模块、交流模块、推理模块和规划模块这五个模块组成的新框架。本文提出了一个由五个模块(即观察模块、信念模块、通信模块、推理模块和规划模块)组成的新框架,以处理以前未测试过的各种虚拟环境中的多代理仿真。
下图概述了该框架。
观察模块
为了实现代理之间或代理与人类之间的合作,有必要从虚拟环境中感知和提取有关周围环境的信息。
为此,该框架将观察模块作为第一个模块,用于处理从虚拟环境接收到的信息,并提取可视场景图、对象、虚拟环境地图和其他代理的位置等信息。可获得以下信息。
Belif 模块
由于 LLM 不具备保留先前查看的信息或与他人互动的记忆的能力,因此Belif 模块被整合为一个模块,以有效存储和更新有关物理信息和其他代理状态的信息。
通信模块
在多代理模拟中,能够与他人有效沟通非常重要,而要实现有效沟通,需要解决两个问题:发送什么信息和何时发送信息。
通信模块通过直接使用 LLM 生成信息和设计由指令头、目标描述、状态描述、行动历史和对话历史组成的提示来解决上述两个问题。上述两个问题是通过设计
推理模块
利用前几个模块收集到的信息,代理需要整合当前的状态、其他人和周围环境的状态、任务目标、已采取的行动和已收到的信息,并为下一步行动制定计划。
为了制定这样的计划,该框架包含一个推理模块,它使用与通信模块类似的提示来推理所有信息,并生成一个高级计划。
规划模块
要在虚拟环境中完成复杂的任务,代理需要制定一个计划来处理上述复杂任务。
然而,现有的研究表明,法律硕士往往擅长制定高层次的计划,却不擅长制定低层次的计划。
因此,在本模块中,规划模块的设计是根据推理模块生成的高层次计划来生成低层次计划。
实验装置
本文利用所提出的模块,在虚拟环境中建立了两个多代理模拟实验基准。
交流式观察与帮助(C-WAH)。
交流式观察与帮助(C-WAH)是一种多代理模拟基准,它扩展了现有的单代理观察与帮助挑战任务。
该基准建立在多代理模拟平台 VirtualHome-Social 上,定义为五项常见的家庭任务:准备茶水、洗碗、准备饭菜、准备杂货和准备餐桌。
这两项评价指标分别是平均步数(即完成一项任务所需的平均步数)和效率改进(EI),后者计算的是通过与其他代理合作提高任务效率的情况。
三维世界多代理传输系统(TDW-MAT)
第二项是 ThreeDWorld Transport Challenge,这是一项针对单个代理的现有任务,但如下图所示,增加了更多类型、对象和容器,以配置更逼真的对象排列,并支持多代理中代理之间的通信。三维世界多代理传输(TDW-MAT),已扩展为代理配置。
该基准建立在一个名为 TDW 的模拟平台上,要求代理使用容器将尽可能多的物体运送到目标位置,目标位置如下图所示。(红色 = 目标位置,物体 = 蓝色,集装箱 = 绿色,代理 = 浅蓝色,其他代理 = 黄色)。
这两个评估指标是运输率(TR)和效率改善率(EI),前者计算的是运输到目标位置的物体的百分比,后者如上所述。
定量结果
两次实验的结果如下表所示。
表中的 HP 代表根据简单的分层计划(称为 "分层计划器")设计行动的代理,而 LLM 代表使用这一框架设计的代理。
如表所示,在两个实验中,HP 代理合作完成任务的效率都高于单独完成任务的效率,而 LLM 代理相互合作时的性能最高以下结果可以证实这一点。
定性结果
此外,为了阐明代理之间有效合作行为的基本要素,本文对实验中代理的行为进行了定性分析,并确定了几种合作行为,如下图所示。
例如,在图 a 中,男性代理(鲍勃)提出了一个计划,即他去厨房,而女性代理(爱丽丝)检查其他房间,但爱丽丝考虑到她已经在厨房的情况,提出了一个更好的计划。
代理们也明白敢于不交流的有效性,在图 c 中,当鲍勃分享了爱丽丝的建议情况,并刚刚找到了物品--一个盘子时,他决定独自完成物品的任务会更有效率,他和爱丽丝他选择不交流。
此外,如下图所示,由真人控制的女性代理与使用 LLM 的男性代理之间也开展了合作。
在这个实验中,与代理对代理的实验一样,人类和 LLM 代理进行了良好的沟通,并共享了寻找目标的路线,这使他们能够高效地完成任务。
因此,总的来说,本实验的结果表明,使用 LLMs 构建能成功与人类协作的协作型代理具有巨大的潜力。
摘要
结果如何?在这篇文章中,我们提出了在多代理模拟中使用 LLM 的新框架,并通过虚拟环境中的实验,首次系统地分析了 LLM 在协同工作中的规划和沟通能力。
本实验中使用的 LLM 代理能够与周围环境进行适当的交流,并在大多数情况下采取正确的行动,但它们偶尔也会误解提示中的指令或做出错误的推断。
要解决这些不足,不仅需要改进框架,还需要开发具有更强的及时响应能力和推理能力的 LLM,我们将密切关注未来的进展。
本文所介绍的框架和实验结果的详情可参见本文,有兴趣者可参阅。
与本文相关的类别