![[IndoMMLU]用于评估印尼语 LLM 性能的数据集](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/February2024/indommlu.png)
[IndoMMLU]用于评估印尼语 LLM 性能的数据集
三个要点
✔️ 评估多语言能力:摒弃偏重英语的评估,根据印尼教育中使用的考题,特别是印尼语和地区语 言,评估大规模语言模型(如 GPT-3.5 和 Falcon)的性能。
✔️ IndoMMLU 数据集:制作了第一个印尼特定的 多选题数据集,涵盖印尼从小学到大学入学考试的各种教育水平和不同科目,评估语言能力和大规模语言模型在各种科目中的知识。
✔️ 基于真实世界知识和教育水平的性能分析:按学科和教育水平分析了大规模语言模型的性能,尤其是 GPT-3.5 显示出最高的准确性,但在理解当地语言和文化方面存在挑战。
Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU
written by Fajri Koto, Nurul Aisyah, Haonan Li, Timothy Baldwin
(Submitted on 7 Oct 2023 (v1), last revised 21 Oct 2023 (this version, v2))
Comments: Accepted at EMNLP 2023
Subjects: Computation and Language (cs.CL)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
英语偏见数据集主要用于评估大规模语言模型(LLM)的能力。这些模型在旨在评估语言能力、推理能力和现实世界知识的测试中表现出色。然而,自从出现了用多种语言训练的 LLMs(如 GPT-3.5、Falcon 和 BLOOMZ)之后,就有必要对英语以外的语言性能进行评估。特别是由教育专家精心设计的学校测试,已被证明不仅有助于评估语言技能,而且有助于评估高级认知技能,如理解能力、分析能力和在各种情况下应用知识的能力。
除了传统的以英语为基础的评估外,还需要进行新的尝试,以反映特定地区的语言和文 化。这是为了解决翻译噪音、缺乏特定地区内容和无法捕捉特定语言细微差别等问题。在此背景下,本文利用印尼教育部门的试题对法律硕士的能力进行了评估。本研究收集了从小学到大学的各个教育阶段的试题,并对其进行了分析,涉及不同的学科领域,如科学、技术、工程和数学、社会科学、人文科学、印尼语以及地区语言和文化。
我们的研究引入了首个印尼语 MMLU 数据集 IndoMMLU,其中包含 64 个不同的任务,包括印尼特有的九种地区语言和文化。该数据集包含从一年级到十二年级的考题,甚至包括大学入学考试,可对语言学习者的印尼语水平进行详细评估。此外,我们还将评估几种多语言 LLM,如 GPT-3.5 和 LLaMA,以测试这些模型对当地语言和文化的理解程度。这将是多语言 LLM 发展的一个步骤,也是从更广泛的文化背景更好地理解语言的一个步骤。
印度文联
IndoMMLU 是专为印尼教育系统设计的多选题集。该数据集涵盖从小学到大学入学考试等不同教育阶段的 64 个科目,采用英语 MMLU 格式,但以分类更细的印尼教育课程为基础。
印度尼西亚的教育系统分为三级--小学(六年)、初中(三年)和高中(三年)--每 级学校教授不同的科目。小学各年级学生学习印尼语、公民、数学、艺术、体育和宗教;四至六年级和中学学生进一步学习外语、地方语言/文化、科学和社会科学。在高中阶段,学生学习更专业的自然科学和社会科学科目,如物理、化学、生物、地理、社会学、经济学和历史等。在《印 度语、数学、语言和文化大学》中,数学被明确排除在外,因为数学问题主要由符号组成,语言内容很少。
印尼各省的地区语言/文化科目也各不相同,取决于当地政府的政策。例如,在西苏门答腊,用印尼语教授米南卡保文化,而在西爪哇,学生则接触巽他语和巽他文化。这意味着,IndoMMLU 反映了各地区教育的多样性。
为了创建这个 IndoMMLU,我们邀请了七位拥有教育学学士学位的专业教师参与,并从网络资源中收集印尼已出版学校的考试试题。然后要求他们收集每道试题的元数据,如来源 URL、学校级别、班级级别、试题文本、选项和正确答案。为确保收集过程的质量,组织了有关数据收集程序的研讨会,并对收集到的数据进行了严格的质量控制。
每位教师收集的问题都经过随机检查和人工验证,以确保数据的准确性。此外,还进行了自动筛选,以排除重复的问题或没有答案的问题。最后,这些试题被整理成 14981 道题,并按小学、中学、高中和大学入学考试级别进行分类;IndoMMLU 的试题中,小学占 30%,中学占 24%,高中占 32%,大学入学考试占 14%。试题的平均长度因教育水平和科目而异,小学阶段的试题相对较短,而大学入学考试阶段的试题较长。
该数据集反映了印度尼西亚教育系统的复杂性和多样性,将成为教育研究和机器学习应用的宝贵资源。
试验
论文评估了 24 种不同规模的大规模语言模型在零拍摄和四拍摄设置下的表现。这些模型包括 GPT-3.5、XGLM、Falcon、BLOOMZ、mT0、LLaMA 和 Bactrian-X。问题和选项前都有简单的印尼语提示:"Ini adalah soal [subject] untuk [level]. Pilihlah salah satu jawaban yang dianggap benar!"(这是一道[级别]的[题目]问题。请选择正确答案!')其他信息。
对于闭源模型,通过比较首次生成的标记(如 A、B、C)和使用正则表达式的答案来评估问题。对于开放源代码模型,我们对两种策略进行了基准测试。给定一个问题和相应的选项,我们计算 (1) 生成完整答案的概率(完整答案概率)和 (2) 生成答案的第一个标记的概率(第一个标记概率)。
下图显示了零射配置下的精度。在 XGLM (7.5B)、Falcon (40B)、BLOOMZ (7.1B)、mT0xxl (13B)、LLaMA (65B) 和 Bactrian-X (13B) 等开源模型中,根据第一令牌概率估算答案是最准确的。(XGLM是一个明显的例外),显示出良好的性能。
下表显示了 24 个模型中每个学科领域的平均准确率。在计算分数时,有关教育水平被忽略,平均分数基于学科,最终分数计算在所有学科领域。
由于可选方案的数量不同,随机方案的绩效介于 20% 和 27% 之间。
总体而言,GPT-3.5 的准确率最高,但也只有 53.2%。除了本地语言和文化科目外,GPT-3.5 在每个科目领域的准确率也都是最高的。在开源模型中,mT0xxl(13B)的平均准确率为 42.5%,而 Falcon(40B)的表现不如 mT0xxl(13B)和 BLOOMZ(7B)。
基于模型大小的性能各不相同,BLOOMZ(7B)和 mT0xxl 等较小模型的性能优于 Falcon(40B)和 LLaMA(65B)。这可能是由于 Falcon 和 LLaMA 的预训练数据中没有印尼语;13B 和 30B LLaMA 模型的性能较低,这表明大型语言模型的 "新兴能力 "通常出现在相同或密切相关的语言中。这可能是一种迹象。在包括印尼语在内的 52 种语言的指示性数据集上微调的 LLaMA 模型 Bactrian-X-LaMA (13B) 比 LLaMA (13B) 的平均准确率高出 5%,这一事实进一步说明了这一点。
IndoMMLU 还包括详细的教育水平元数据,可以从人类教育水平的角度更深入地了解大型语言模型的能力。在印尼,考试的最低及格分数因科目而异,通常在 65 到 70 分之间。65 分的及格分数可评估 GPT-3.5 的实际知识能力,如下表所示。绿色表示模型通过了该科目,红色表示没有通过。
该表显示,GPT-3.5 在小学考试中表现良好,但缺乏对当地语言和文化的了解;在公民和宗教等不需要太多分析性思维的科目中,GPT-3.5 在高中考试中得分较高在高中考试中,GPT-3.5 分数往往更高。
IndoMMLU 包括各种印尼语考试,涵盖所有年级和教育水平,可在大语言模式下评估印尼语水平。结果如下图所示。
GPT-3.5 显示,一年级的准确率最高,接近 90%。然而,随着教育水平的提高,模型的性能逐渐下降:3 年级及以上的分数降至 75 分以下,7 年级及以上则无法通过测试。mT0xxl 和 BLOOMZ 也有类似的趋势,只能在一、二、三年级通过。这项详细的评估为印尼语的大规模语言建模能力提供了宝贵的基准。
摘要
本文介绍了印尼语语言理解的新多任务基准 IndoMMLU。该基准用于评估当前大型语言模型对本地语言和文化知识的理解程度。结果表明,GPT-3.5 可以通过印尼小学考试,但较小的模型在几乎所有教育水平的考试中都很吃力。本文评估的 24 个模型中,没有一个在当地语言和文化领域表现出色,这突出表明,大型语言模型要想在不同的文化和语言环境中发挥有效作用,就必须对这些文化和语言有更深入的了解。
报告还提到了 IndoMMLU 的一些局限性。目前的研究不包括多模态问题、算术推理任务或论文式问题。因此,这些方面的问题应在今后的研究中加以解决,以便更深入地评估模型理解和批判性思维能力。
希望通过对不同语言和文化的进一步评估,能够开发出更加普遍适用的语言模型。
与本文相关的类别