
用于评估人工智能代理性能的综合基准--AgentBench 现已推出!
三个要点
✔️ 提出 AgentBench,这是一个评估大规模语言模型生成的代理的综合基准
✔️ 使用 25 个大规模语言模型在一个由 8 个不同环境和数据集组成的任务上进行大规模比较实验
✔️ 实验结果表明,基于 API 的大规模语言模型和开源语言模型之间的性能差异很大。开源大规模语言模型之间存在巨大的性能差异。
AgentBench: Evaluating LLMs as Agents
written by Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang
(Submitted on 7 Aug 2023)
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
随着 GPT-4 等大规模语言模型(LLM)的出现,人们认为 LLM 不仅能够处理传统的自然语言任务,如问题解答、自然语言推理和文本摘要,还可能具有理解人类意图和执行指令的能力。
在此背景下,各种利用 LLMs 实现自主目标的应用,如AutoGPT、BabyAGI和AgentGPT的开发,引起了公众的极大兴趣和广泛讨论。
尽管取得了这些进展,但一个关键的挑战是缺乏一个系统化和标准化的基准来评估这些 LLM 探针。
为了解决这些问题并评估由 LLM 生成的代理的性能,本文提出了 AgentBench,这是一个综合基准,包括基于真实世界场景的八个任务和环境,以及 25 种不同的基于 API 的开源模型。本文介绍了使用 LLM 代理进行的大规模比较实验。
AgentBench 的组成
本文提出的 AgentBench 概述如下图所示。
AgentBench 是一个由 LLM 生成的 AgentBench,它在真实世界场景中使用 LLM 生成的代理,基于操作系统 (OS)、数据库 (DB)、知识图谱 (KG)、数字卡片游戏 (DCG)、横向思维谜题 (LTP)、持家 (HH)、网络购物 (WS) 和网络浏览 (WB)。(OS)、数据库(DB)、知识图谱(KG)、数字卡片游戏(DCG)、横向思维谜题(LTP)、持家(HH)、网络购物(WS)和网络浏览(WB)。
让我们一个一个来看看。
操作系统(OS)
对于用户来说,首先要做的就是能够在终端中使用 LLM 访问和操作操作系统,虽然已经有人尝试过将自然语言翻译成 shell 命令,但之前很少有研究在真正的执行环境中对其进行评估。
本任务旨在评估在真实操作系统上的交互式 bash 环境(如 Ubuntu Docker)中进行的一系列操作(如反复将目录文件设置为只读)。
数据库 (DB)
检查 LLM 通过 SQL 操作实际数据库的能力也非常重要,因为数据库也是真实用户操作 LLM 的典型操作。
在此背景下,本任务评估了 LLM 在真实 SQL 界面和数据库中的行为。
知识图谱 (KG)
使用知识图谱(KG)要求代理有能力将复杂的任务分解成更简单、更易于管理的组成部分,并在必要时进行规划、制定战略和调整。
因此,知识图谱可用于评估代理在复杂现实世界中的决策能力,本任务利用知识图谱来评估代理决策的灵活性和适应性。
数字卡游戏(DCG)
需要战略和规划的游戏可以作为代理开发的模拟环境,最近的一些研究采用了真实世界的游戏(如 MineDojo),其中大多数游戏需要多模态能力,超出了现有 LLM 的能力范围。问题在于
在此背景下,本文使用数字纸牌游戏(如 Halfstone)来代替,这些游戏涉及纸牌的丰富文字描述、回合制竞争和制胜游戏策略等元素,并需要代理做出战略决策的能力。
因此,在这项任务中,我们使用游戏 Aquawar 来评估代理的性能。在该游戏中,代理作为玩家管理具有不同能力的鱼队,并以回合制的形式与其他鱼队作战。
横向思维谜题 (LTP)
横向思维谜题(LTPs)是一种风靡全球的集体游戏,在这种游戏中,玩家通常会被问到一个与谜语有关的问题,主持人会回答 "是"、"否 "或 "无关"。
问题是,例如,"一个人走进一家餐馆,点了一碗甲鱼汤,喝完后,他自杀了。 他为什么要这么做?一个人走进一家餐馆,点了一碗甲鱼汤,喝完后,他自杀了。他为什么要这么做?这项任务有四个难度级别。
代理向主持人重复问题,当代理做出推理得出正确答案时,游戏结束,并根据两点进行评估:代理得出正确答案的速度,以及代理将正确答案分解成几个点后得出的点数。
住房(HH)
ALFWorld 是一个虚拟环境,其设计类似于现有研究中使用的典型家庭,在这项任务中,代理会收到 ALFWorld 的描述和目标指令(例如,将台灯放在桌子上)。
然后,每次代理采取行动时,模拟环境都会给出反馈,以评估最终代理完成任务的能力�
网络购物 (WS)
网上购物已成为现代生活的重要组成部分,而现有的虚拟网上购物环境Webshop可用于评估代理的推理和决策能力,如在网站上搜索、浏览和选择用户想要的产品。
在这项任务中,用户在输入环境信息和提示信息(这些信息会告诉代理应该以何种格式作出反应)后,会指示代理他们希望购买何种产品。
然后,代理根据提示,通过搜索引擎或点击按钮搜索产品,并评估用户完成一系列任务的能力,直至购买到与用户愿望相似的产品。
网页浏览 (WB)
Mind2Web是最近发布的一个通用基准,用于开发和评估能够根据高级用户指令在各种网站领域执行复杂任务的代理。
这项任务使用 Mind2Web 来评估代理在用户发出高级指令时完成任务的能力(例如,评级 4 或以上,持续时间 3-6 小时,获得中级编程课程,添加到购物车并结账)。
评估 AgentBench
为了系统地研究现有 LLM 生成的代理的性能,本文使用 AgentBench 对 25 种不同的 LLM(包括基于 API 的 LLM 和开源 LLM)进行了广泛的评估。(由于计算资源有限,开源 LLM 仅包括 30B 以下的模型)。
所有型号的概述如下。
此外,作者还设计了一个评估工具包,只需在 AgentBench 中设置一个具有相应标准格式 API 的模型服务器,就可以轻松地使用任何 LLM 模型对AgentBench 进行定制,以促进代理评估。现在,对 LLM 进行评估已成为可能。
使用 AgentBench 评估结果的概览如下图所示。
从图中可以看出,虽然 GPT-4 和其他基于 API 的 LLM 代理表现出很强的性能,但开源模型和基于 API 的模型之间存在明显的性能差异。
此外,下表还显示了各模型的 AgentBench 总分。(VER 代表模型版本,OA 代表根据所有任务的加权平均值得出的 AgentBench 总分)。
如上图所示,GPT-4 在八项 AgentBench 任务中的七项中表现最佳,并在所有其他基于 API 的 LLM 中实现了高性能,尽管在其他任务中表现稍差。
另一方面,大多数开源 LLM 的性能远不如基于 API 的 LLM,即使是性能最好的开源模型 openchat-13b,与 gpt-3.5-turbo 也存在明显的性能差异。
这与最近发现的一些开源 LLM 与 gpt-3.5-turbo 和 gpt-4 相媲美的结果形成了鲜明对比,突出表明需要进一步努力提高开源 LLM 的性能。
摘要
结果如何?在这篇文章中,我们提出了AgentBench,这是一个综合基准,由八项任务和基于真实世界场景的环境组成,用于评估LLM生成的代理的性能,使用了25种不同的LLM代理,包括基于API的代理和开源模型。论文描述了一个大规模的比较实验。
在本文进行的大规模对比实验中,基于 API 的 LLM 代理(如 GPT-4)表现出了卓越的性能,而它们与开源 LLM 代理之间的性能差异则非常明显。
我们希望本文能推动开源模型的开发,因为这些模型对于 LLM 代理在社会中越来越多地应用并能够应对现实世界的挑战至关重要。
本文中介绍的每个 AgentBench 任务和对比实验的详情都可以在本文中找到,感兴趣的读者可以参考。
与本文相关的类别