
应对大学教育:MMMU--大规模多模态模型的新基准
三个要点
✔️ 提出了评估 "专家级 AGI "进展的方法的重要性,"专家级 AGI "被定义为通用人工智能(AGI)的第 3 级。
✔️ 提出在大学层面评估多模态理解的新基准,即 MMMU,以评估人工智能模型的专业知识和推理能力。
✔️ 注意到目前的人工智能模型(包括 GPT-4V)在 MMMU 中表现不佳,需要进一步改进才能实现专家级 AGI。
MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI
written by Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen
(Submitted on 27 Nov 2023)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
大规模语言建模的快速发展激发了对人工通用智能(AGI)的讨论,莫里斯等人对此提出了明确的定义和等级分类。其中尤为重要的是第三级 "专家级 AGI",它指的是在许多任务中可媲美前 10% 熟练成人的人工智能。对经济的影响将是一个值得关注的问题。密切关注专家级人工智能的进展非常重要。
然而,问题在于如何衡量 "专家级 AGI "的进步。作为一种基准,大学水平的测试非常有用。虽然以往的基准测试都侧重于基于文本的问题,但人类可以解决涉及图像和文本的各种问题。因此,人们将注意力集中在既能理解文本又能理解图像的大规模多模态模型上。这些模型在现有的多模态基准测试中表现出色。然而,这些基准侧重于常识和日常知识,而非专家知识,因此不足以评估专家级 AGI。
为了解决这个问题,本文提出了一个名为 "MMMU "的新基准。它专门针对大学阶段的多学科多模态理解和推理,涵盖六个学科:艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程。它包含约 11,500 道来自大学考试和教科书的各种试题,涉及 30 个学科和 183 个子领域,包括各种类型的图像(如图表、地图、乐谱)。
MMMU 包含需要专家级推理和深入知识的问题。它还测试对不同图像格式的理解,以及在解决问题时将文本和图像相结合的能力。
该基准评估了 14 个开源模型和 GPT-4V,其中 GPT-4V 的准确率最高仅为 56%,这表明人工智能模型需要大幅改进 MMMU 提供了一种衡量专家级 AGI 进展的新方法。该基准旨在促进更专业、更先进的人工智能的发展。
什么是 MMMU 基准?
MMMU 包含的数据集涵盖艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程六个学科的 30 个科目和 183 个子领域,详细科目和统计数据如下。基准问题由 50 名大学生(包括合著者)从在线资源、教科书和授课材料中手动收集。
收集数据的过程包括研究大学的主要专业,以决定包括哪些科目。选择标准是该科目是否需要视觉信息。根据这一标准,法律和语言学等几乎没有相关视觉资料的学科被排除在外。因此,我们从 6 个不同学科中选择了 30 个科目。接下来,我们聘请了 50 多名来自这些专业的大学生作为注释员来收集问题。他们从教科书和网络资源中收集各种问题,并根据自己的专业知识创造新问题。不过,他们被要求避免从禁止复制和再分发的网站获取数据。最终,从各种来源收集到 13,000 多条问题。
其次,进行两阶段的数据清理,以提高数据质量。在第一阶段,确定并消除潜在的重复问题。在第二阶段,共同作者检查问题的格式和排版错误,并在必要时进行更正。最后,将问题分为四个难度等级--非常简单、简单、一般和困难,并剔除大约 10% 非常简单的问题,以提高题库的质量和难度。
与其他基准不同,该基准涵盖大学水平的知识。传统的基准主要侧重于日常知识和常识,图片的类型也很有限。但本基准旨在涵盖更广泛的内容,包括 30 种不同的图像格式,如图表、表格、图表、化学结构、照片、绘画、几何图形、乐谱和医学图像。此外,传统的基准需要一般知识和简单的理论推理,而本基准则需要使用大学水平的学科知识进行更高级的推理。
实验结果
使用 MMMU 基准对大规模语言模型(LLM)和大规模多模态模型(LMM)进行比较验证的结果如下表所示。可以看出,对于目前的大规模语言模型(LLM)和大规模多模态模型(LMM)来说,这是一个非常先进的基准。即使是被认为最先进的 GPT-4V 也只有 55.7% 的准确率,这表明还有很大的改进空间。这反映在该基准对 AGI 的高要求上。
从 GPT-4V 等专有模型与开源模型之间的巨大性能差异可以看出,BLIP2-FLAN-T5-XXL 和 LLaVA-1.5 等主要开源模型的精度约为 34%,明显低于 GPT-4V 的约 56准确率。
按数据集学科进行的性能比较还显示,在图像更 "自然"、需要推理的问题相对较少的领域,如艺术与设计、人文与社会科学领域,性能相对较高。相反,在科学、健康和医学以及技术和工程等领域,它的表现则较差,因为这些领域的许多任务都需要复杂的感知和复杂的推理。
此外,还对 GPT-4V 进行了进一步的错误分析:从 GPT-4V 预测中随机抽取了 150 个错误案例进行调查。这些案例由专门的注释员进行分析。错误分布如下图所示:最常见的 GPT-4V 错误是感知错误。
摘要
本文提出了一种新的基准--MMMU,用于评估大规模语言模型(LLM)和大规模多模态模型(LMM)的能力。作为评估专家级 AGI 进展的重要基准,MMMU 不仅能显示当前大规模语言模型(LLM)和大规模多模态模型(LMM)基本感知能力的极限,还能评估它们处理复杂推理和深层知识的能力。它要求具有各种专业技能的成年人具备应有的专业知识和推理技能,作为评估专家级人工智能进展的基准非常有用。
与本文相关的类别