
多代理协作框架 MindAgent 现已推出!
三个要点
✔️ 设计了多代理规划框架 MindAgent,以促进 LLM 协作
✔️ CUISINEWORLD,一个评估 LLM 多代理规划性能的基准和评价指标提出了协作得分(CoS)
✔️ 比较实验证明,随着执行工作的代理数量增加,工作效率和任务完成率也随之提高
MindAgent: Emergent Gaming Interaction
written by Ran Gong, Qiuyuan Huang, Xiaojian Ma, Hoi Vo, Zane Durante, Yusuke Noda, Zilong Zheng, Song-Chun Zhu, Demetri Terzopoulos, Li Fei-Fei, Jianfeng Gao
(Submitted on 18 Sep 2023 (v1), last revised 19 Sep 2023 (this version, v2))
Comments: The first three authors contributed equally. 28 pages
Subjects: Artificial Intelligence (cs.AI); Human-Computer Interaction (cs.HC); Multiagent Systems (cs.MA)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
近年来,大型语言模型(LLM)的规划能力备受关注,它可以执行复杂的调度并协调生成代理,以完成多代理系统中的复杂任务。
另一方面,与现有研究中广泛涉及的单个代理规划相比,多代理规划由于行动空间的指数增长(代理数量的增加)而具有非常高的复杂性。
因此,尽管迄今为止许多游戏框架都是以单代理形式部署的,但总体而言,针对多代理的基准测试还不够充分。
在此背景下,本文设计了一个多代理规划框架--MindAgent,以促进 LLM 中的多代理协作,提出了一个新的基准--CUISINEWORLD,并提出了一个评价指标--协作得分(CoS提出了一个新的基准--CUISINEWORLD 和一个评价指标--协作得分(CoS),并在文中描述了不同条件下的综合实验。
CUISINEWORLD
为了评估 LLM 在多机器人规划中的性能,本文提出了一个名为 CUISINEWORLD的基准,如下图左侧所示。
让我们仔细看看。
任务
CUISINEWORLD 是一款模拟虚拟厨房环境的游戏,它命令几个代理在有限的时间内使用各种器皿和配料完成尽可能多的订单。
从只需切割金枪鱼肉就能制作的金枪鱼生鱼片,到需要使用各种器皿的猪肉意大利面等菜肴,所提供的订单中设置了由 27 种不同食材组成的 33 种不同菜肴。
这些菜肴根据烹饪难度进行分组,共分为 12 个游戏关卡。
在任务开始时,任务列表中会添加一份食物订单,当餐桌上摆放了匹配的菜肴时,任务就算完成,菜肴也会从列表中删除。
另一方面,如果达到了时间限制(取决于菜肴的复杂程度),任务就会被视为失败,在这种情况下,菜肴也会被从列表中剔除。
由于新订单来得很快,而现有订单又必须在时间耗尽之前烹饪完毕,因此这种设计要求实验室管理人员对多个代理进行合理规划,以最大限度地提高整体生产率。
人机协作
CUISINEWORLD 采用文本界面设计,因此代理可以相互协作,也可以与人类和代理协作。
此外,除了使用标准键盘控制播放器外,还可以使用 VR 设备,如下图所示。
这种虚拟现实功能允许用户在三维环境中实际移动游戏中的元素,如球员和烹饪用具,并与代理合作,从而实现更加身临其境和逼真的互动。
协作得分 (CoS)
本文提出了 "协作得分"(CoS)这一指标,用于评估 LLM 能够在多大程度上为 CUISINEWORLD 中的多个代理计划和完成食品订单。
CoS 的定义公式如下
其中,Tint是将新订单添加到 CUISINEWORLD 任务列表的步骤数(=任务间隔),由最大步骤数 T 设定;M 是要评估的任务间隔总数。(默认情况下 M=5)。
这表明,CoS 代表了 CUISINEWORLD 中不同条件下不同任务间隔的平均任务完成率,分数越高,表明多方代理之间的协作效率越高。
MindAgent:游戏人工智能基础设施
本文设计了一个多代理规划框架--MindAgent,旨在促进 LLM 中多个代理之间的协作。
MindAgent 的架构如下图所示。
如图所示,MindAgent 架构由四个模块组成:计划技能与工具使用、行动、本地化管理和记忆。
CUISINEWORLD 游戏环境要求使用各种规划技能和工具来完成任务,而规划技能和工具使用模块则传播这些技能和相关游戏信息。
此外,相关的游戏数据还被转换成结构化文本格式,以便由 LLM 处理。
除了从文本输入中提取操作并将其转换为特定领域语言外,Action 模块还负责验证 DSL(特定领域语言)并确保其在运行时不会出错。
LLM 模块是多代理系统中的调度员,根据其他模块发送的信息做出决策。
内存模块负责将每个时间步的环境状态和代理状态记录在一个名为 "内存历史 "的地方。
这些模块和根据上下文学习(根据任务描述和输入/输出进行学习,无需更新参数)进行的设计提高了 MingAgent 在多代理情况下的规划能力。
实验和结果
本文在 CUISINEWORLD 中进行了不同条件下的实验,以研究 LLM 在多代理中的性能。(所有实验均使用 OpenAI API 和 anthropic API 进行)。
下表显示了在不同任务级别(非常简单、简单、中级和高级)下,每种不同数量的代理(2-4 个)的任务完成率和 CoS。
从表中可以看出,不同任务级别的代理数量越多,任务工作效率(CoS)就越高。
此外,我们还观察到,在所有任务级别和代理数量下,当任务数量较少时,任务完成率较低,而随着任务数量的增加,任务完成率趋于稳定。
这可以认为是In-context Learning 公司设计的四个模块和MindAgent 框架的结果,它提高了 LLM 在多代理中对每个任务的规划能力。
此外,下图显示了不同任务级别(0-9 级)和代理数量(2-4)下的任务成功率。
如图所示,可以看出,在不同的任务级别,一般来说,代理越多,工作效率越高(图中斜率增大)。
这些实验结果表明,LLM 可以协调更多的代理,更高效地执行任务,为未来的研究提供了非常重要的启示。
摘要
结果如何?在本文中,我们设计了一个多代理规划框架--MindAgent,它可以促进 LLM 中多个代理之间的协作,提出了一个新的基准--CUISINEWORLD 和一个评价指标--协作得分(CoS),并在不同条件下进行了一系列综合实验。本文介绍了在不同条件下进行的一系列综合实验。
除了研究 LLM 在多代理中的规划能力并获得各种成果供未来研究使用外,论文还关注开发未来人类与人工智能无缝合作的游戏系统,例如在 CUISINEWORLD 实现 VR 环境中的人类操控。该项目是
作者说,本文的见解和发现不仅可能带来技术进步,还可能为玩家创造出更多引人入胜、令人愉悦的游戏,希望本文能推动游戏领域的进步。
本文中介绍的 CUISINEWORLD 和 MindAgent 架构的详情可参见本文,如有兴趣,请参阅本文。
与本文相关的类别