
GAIA:新基准揭示了大规模语言模型的局限性
三个要点
✔️ 提出了一个新的基准--GAIA,它可以使用涉及日常任务和科学问题的 466 个问题来评估人工智能助手的性能。
✔️ 当前的大规模语言模型具有丰富的知识和流畅的句子生成能力,但在如何评估它们在实际任务和复杂问题中的表现方面存在挑战。
✔️ 使用 GAIA 进行的评估显示,GPT-4 等高级模型得分较低,这暴露了它们在复杂的现实世界任务中的局限性。
GAIA: a benchmark for General AI Assistants
written by Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom
(Submitted on 21 Nov 2023)
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
近年来,大规模语言模型已开始显示出其作为可用于各种目的的多功能模型的潜力。正如已被许多人使用的 ChatGPT 和 Bard 所证明的那样,现代模型拥有丰富的知识,可以流畅地生成句子,并能根据人类的喜好进行调整。此外,这些模型还可以与网络浏览和代码解释等插件相结合,以实现更高的复杂性。
但与此同时,一个主要问题是如何评估这些不断发展的模型。大规模语言模型已经展示了新的能力,并在各种基准测试中取得了 SOTA 性能。而目前的趋势表明,测试大规模语言模型的任务甚至对人类来说都很困难。例如,更高级别的科学或法律评估任务,或撰写连贯的书籍。然而,对人类来说困难的任务对大规模语言模型来说并不一定困难。
这种情况要求我们重新考虑评估新人工智能模型的基准。例如,一种可能的方法是让人工智能解决一项任务,这项任务在概念上很简单,但需要以精确的方式执行一系列复杂的操作。这类任务需要一直解决,直到获得成功的执行结果,而且其输出结果可以很容易地进行验证。特别是,人工智能助手以现实生活中的实例为基础,符合这一标准。
因此,本文提出了一个新的基准--GAIA,重点关注人工智能助手。
GAIA 包含 466 个问题/答案和相关的设计方法。这些问题的创建相对简单,对人工智能模型来说具有挑战性,并且具有独特的事实性答案,因此可以进行简便、稳健的自动评估。
现有的大规模语言模型基准是特定的,仅限于封闭和合成环境,但 GAIA 本质上需要浏览开放和不断变化的网络,处理多模态和跨多个步骤的推理,在更真实的环境中进行评估。目的是
事实上,即使是在人类难以完成的任务上取得高性能的大型语言模型,在 GAIA 上的表现也很糟糕。即使在使用插件的情况下,GPT-4 在最简单的任务上的成功率也不能超过 30%,而在最困难的任务上的成功率为 0%。相比之下,人类的平均成功率为 92%。如果拟议的 GAIA 能够实现高性能,那么它将被视为下一代人工智能模型的一个重要里程碑。
什么是 GAIA?
GAIA 是一项利用人工智能助手的基准测试。它由 466 道人类设计的问题组成,这些问题都是基于文本的,但有些问题还附有图片或电子表格等文件。这些问题涵盖了广泛的助手使用案例,包括日常个人任务、科学和常识。这些问题都很简短,并设计有正确的单一答案,因此很容易验证。
以下是 GAIA 问题示例。完成这些任务需要具备推理、处理多模态和插件使用技巧方面的基本能力。有些问题反映了现实生活中的使用案例,并包含图片等附加材料。
GAIA 中的评估是自动进行的,旨在快速和实事求是。实际上,每个问题都需要一个答案--一个字符串(一个或多个单词)、一个数字或一个以逗号分隔的字符串或浮点数列表。正确答案只能有一个。因此,评估的依据是模型答案与事实之间的准精确匹配。如下图所示,提示用于告知模型所需的格式。此外,还提供评分功能和排行榜。
GAIA 的性能评估
GAIA 在向模型提问时使用前缀提示来指定特定格式。这种方法已用于评估 GPT-4(含插件和不含插件)和 AutoGPT,后者使用 GPT-4 作为后端。目前,GPT-4 需要手动选择插件,而 AutoGPT 可以自动选择。
因此,GPT-4 有一个 "高级数据分析模式",可根据用户的任务提供代码执行和文件读取功能,还有三个可手动选择的第三方插件:链接读取工具、网页浏览工具和计算工具。不过,由于 GPT-4 插件经常更换并从商店中消失,目前还无法长期使用一套稳定的插件。因此,带有插件的 GPT4 分数被视为 oracle 估计值("oracle "估计值,基于理想情况的猜测)。除此之外,人类注释者和网络搜索也被用作比较的基础。在网络搜索中,将问题输入搜索引擎,看能否从第一页结果中得出答案。
GAIA 对 GPT-4(带插件和不带插件)和 AutoGPT 的评估结果如下图所示:GAIA 中提出的难度级别与当前模型的性能相关,支持其有效性。人类在所有级别中的得分都很高,而被认为是目前表现最好的大型语言模型得分却很低。
人类的网络搜索可能能够为一级问题提供正确答案,但对于稍微复杂一些的查询可能就行不通了。这显示了人工智能助手与搜索引擎竞争的潜力。将不带插件的 GPT-4 与其他结果进行比较后发现,通过插件和访问网络来增强大规模语言模型可以提高答案的准确性;AutoGPT-4 可以让 GPT-4 自动使用该工具,它在第 2 级和第 1 级尤其有效,在这两个级别中,GPT-4 的得分低于不带插件的 GPT-4。得分低于不使用 GPT-4 的情况。每项任务的得分也如下图所示。
摘要
本文回顾了大规模语言模型的基准,重点关注人工智能助手,并提出了一个名为 GAIA 的新基准。
GAIA 并不像传统基准那样专门针对某一特定的性能评估,而是由植根于现实世界的各种具有挑战性的问题组成,这些问题概念上简单,但对人类来说可能很麻烦。可解释性也在考虑之列。精心挑选的问题数量有限,因此易于使用。任务在概念上的简单性(92% 的人类成功率)也使得追踪模型的推论变得容易。此外,与传统基准相比,GAIA 的设计更不容易被玩弄。要完成一项任务,需要规划并准确执行多个步骤。由于这些任务种类繁多,动作模式众多,因此无法再用蛮力解决,从而使作弊行为不太可能得逞。
GAIA 对问题的回答实事求是、简洁明了。这样就可以进行简单、快速和实事求是的评估。
但也存在一些挑战:GPT 等模型只能通过 API 访问,其性能会随着时间的推移而变化,因此在特定时间点的评估可能无法在以后重现。此外,ChatGPT 插件会定期更改,而且不能通过 API 访问,这就更难重现评估结果。
GAIA 还包含一些人工选择的问题,随着时间的推移,这些问题的有效性可能会随着内容的过时或信息在网络上的丢失而降低。此外,GAIA 的问题必须清晰明确。要做到这一点,需要多名注释员,但这一过程成本高昂。此外,GAIA 的所有问题都以英语进行,不涉及与非英语国家的人或非英语国家的网络相关的内容。这意味着 GAIA 只能评估英语范围内人工智能助手的实用性。
尽管 GAIA 是一个有用的基准,但它也有一些局限性,如评估过程的可重复性、问题随 时间推移而退化、问题设计的成本以及缺乏语言和文化多样性。这些局限性应得到理解,并在今后的改进中加以考虑。
与本文相关的类别