【IndoMMLU】インドネシア語におけるLLMの性能評価に向けたデータセット

Large language models 2024年03月21日

3つの要点
✔️ 多言語能力の評価: 英語に偏った評価から脱却し、インドネシアの教育現場で用いられる試験問題をもとに、GPT-3.5やFalconなどの大規模言語モデルの能力評価を行い、特にインドネシア語や地域言語における性能を検証。
✔️ IndoMMLUデータセット: インドネシアの小学校から大学入試までの教育レベルと多様な科目をカバーする、初のインドネシアに特化した選択式問題のデータセットを作成し、大規模言語モデルの言語能力と知識を広範囲に渡って評価。
✔️ 実世界の知識と教育レベルに基づく性能分析: 大規模言語モデルの性能を科目別、教育レベル別に分析し、特にGPT-3.5が最も高い精度を示すものの、地元言語や文化の理解には課題があることを明らかに。

Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU
written by Fajri Koto, Nurul Aisyah, Haonan Li, Timothy Baldwin
(Submitted on 7 Oct 2023 (v1), last revised 21 Oct 2023 (this version, v2))
Comments: Accepted at EMNLP 2023
Subjects: Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

大規模言語モデル（LLM）の能力を評価する際、英語に偏ったデータセットが主に用いられてきました。これらのモデルは、言語能力、推論能力、そして実世界の知識を評価するために設計されたテストでその性能を示しています。しかし、GPT-3.5やFalcon、BLOOMZなどの多言語で訓練されたLLMが登場して以来、英語以外の言語での性能評価が求められています。特に、学校の試験は、教育の専門家によって慎重に設計され、言語能力だけでなく、理解力や分析力、さまざまなシナリオでの知識の適用能力など、高度な認知スキルの評価に役立つことが証明されています。

従来の英語ベースの評価に加え、地域特有の言語や文化を反映した新たな試みが求められています。これは、翻訳によるノイズ、地域特有のコンテンツの欠如、そして言語固有のニュアンスを捉えられない問題に対処するためです。この背景を踏まえ、本論文ではインドネシアの教育現場から得られた試験問題を用いてLLMの能力を評価します。この研究では、小学校から大学レベルまでの幅広い教育段階における試験問題を集め、STEM、社会科学、人文科学、インドネシア語、そして地域言語と文化といった様々な科目領域にわたって分析を行います。

我々の研究では、インドネシア特有の9つの地域言語と文化を含む、64の異なるタスクを含む初のインドネシアMMLUデータセット「IndoMMLU」を紹介します。このデータセットには、1年生から12年生、さらには大学入学試験に至るまでの試験問題が含まれており、LLMのインドネシア語能力の詳細な評価を可能にします。さらに、我々はGPT-3.5やLLaMAなどの複数の多言語LLMを評価し、これらのモデルが地域言語や文化に対する理解をどの程度持っているかを検証します。このような取り組みは、多言語LLMの進化と、より広範な文化的背景を持つ言語に対する理解を深める一歩となるでしょう。

IndoMMLU

IndoMMLUは、インドネシアの教育システムに特化した、多肢選択式の問題セットです。このデータセットは、小学校から大学入試まで、様々な教育レベルにわたる64の科目をカバーしており、英語のMMLUフォーマットに従っていますが、より細かく分類されたインドネシアの教育カリキュラムに基づいて構築されています。

インドネシアの教育システムは、小学校（6年間）、中学校（3年間）、高等学校（3年間）の3レベルに分かれており、各学校レベルで教えられる科目が異なります。小学校では、全ての学年の生徒にインドネシア語、公民、数学、芸術、スポーツ、および宗教が教えられます。4年生から6年生および中学校では、生徒はさらに外国語、地域の言語/文化、科学、社会科学を学びます。高等学校では、生徒は物理、化学、生物、地理、社会学、経済、歴史など、より専門化された自然科学と社会科学の科目を学びます。IndoMMLUでは、問題が主に記号で構成されており言語の内容が少ないため、数学は明示的に除外しています。

また、地域の言語/文化の科目は、インドネシアの各州で異なり、地方政府の方針に依存します。例えば、西スマトラでは、インドネシア語を使用してミナンカバウ文化が教えられていますが、西ジャワでは、生徒はスンダ語と文化に触れます。これは、IndoMMLUが地域ごとの教育の多様性を反映していることを意味しています。

このIndoMMLUの作成には、教育学の学士号を持つ7人の専門教師が参加してもらい、インドネシアの公開されている学校の試験問題をウェブソースから収集してもらいました。そして、それぞれの問題について、出典URL、学校レベル、クラスレベル、問題文、選択肢、正解などのメタデータを収集してもらいました。収集作業の品質を保証するために、データ収集の手順に関するワークショップが開催され、収集されたデータは厳格な品質管理プロセスを経ています。

各教師によって収集された問題はランダムにチェックされ、データの正確性が手動で検証されました。さらに、重複する問題や回答がない問題を除外するための自動フィルタリングが行われました。最終的に、14,981の問題に整理され、これらは小学校、中学校、高等学校、そして大学入試レベルに分類されています。IndoMMLUは、小学校が30%、中学校が24%、高等学校が32%、大学入試の問題が14%を占めています。問題の平均長さは教育レベルと科目によって異なり、小学校レベルの問題は比較的短く、大学入試レベルの問題はより長い傾向にあります。

このデータセットは、インドネシアの教育システムの複雑さと多様性を反映しており、教育研究や機械学習アプリケーションにおいて貴重なリソースとなると考えられます。

実験

この論文では、ゼロショットとフューショットの設定で、異なるサイズの24個の大規模言語モデルを評価しています。これには、GPT-3.5、XGLM、Falcon、BLOOMZ、mT0、LLaMA、Bactrian-Xが含まれます。質問と選択肢の前には、インドネシア語でシンプルなプロンプト「Ini adalah soal [subject] untuk [level]. Pilihlah salah satu jawaban yang dianggap benar!」（これは[level]の[subject]の質問です。正しい答えを選んでください！）を追加しています。

クローズドソースのモデルについては、最初に生成されたトークン（例：A、B、C）と回答を正規表現を使用して比較することで質問を評価しています。オープンソースのモデルについては、2つの戦略をベンチマークします。質問と対応する選択肢を与えられた場合、(1) 完全な生成された回答の確率（Full Answer Probability）と、(2) 生成された回答の最初のトークンの確率（First Token Probability）を計算しています。

ゼロショットの設定でのAccuracyは下図のとおりです。オープンソースモデルであるXGLM (7.5B)、Falcon (40B)、BLOOMZ (7.1B)、mT0xxl (13B)、LLaMA (65B)、Bactrian-X (13B)の中で、First Token Probabilityに基づいて答えを推定することが、最も良いパフォーマンスを発揮することがわかりますXGLMは顕著な例外）。

下表は24モデルの各教科領域の平均精度を示しています。スコアを計算するために、質問の教育レベルを無視し、教科に基づいて平均スコアを出し、最終的にすべての教科領域を通じたスコアを算出しています。

Randomの性能は、選択肢の数が異なるため、20％から27％の間で変動しています。

全体として、GPT-3.5が最も高い精度を達成しているものの、53.2％にとどまっています。また、GPT-3.5は地元の言語と文化の教科を除いて、各教科領域でも最も高い精度を示しています。オープンソースモデルの中では、mT0xxl(13B)が平均42.5％の精度を達成していることがわかります。Falcon (40B)はmT0xxl(13B)とBLOOMZ (7B)よりも悪い性能を示しています。

モデルサイズに基づく性能は異なり、BLOOMZ(7B)やmT0xxlのような小さなモデルが、Falcon (40B)やLLaMA (65B)よりも優れた性能を示しています。これは、FalconとLLaMAの事前学習データにインドネシア語が含まれていないためだと考えられます。13Bと30BのLLaMAモデルの低い性能は、大規模言語モデルの「Emergent Abilities」が一般的に同じまたは密接に関連する言語で現れることを示唆しているかもしれません。これは、インドネシア語を含む52言語の指示データセットで微調整されたLLaMAモデルであるBactrian-X-LLaMA (13B)が、LLaMA(13B)と比較して平均で+5％の精度を示していることによってさらに示されていると言えます。

また、IndoMMLUは詳細な教育レベルのメタデータを含んでおり、これにより人間の教育レベルの観点から大規模言語モデルの能力をより深く理解することができます。インドネシアのコンテキストでは、試験の最低合格点数は科目によって異なり、通常は65から70の間で変動します。合格点を65に設定することにより、下表に示されているように、GPT-3.5の実世界の知識能力を評価しています。緑色はモデルがその科目に合格したことを示し、赤色は不合格であることを示しています。

表からGPT-3.5は小学校の試験で良好な成績を収めることが明らかになりますが、地元の言語や文化の理解に欠けていることが示されています。CivicsやReligionのように、分析的思考をそれほど必要としない科目では、GPT-3.5は高校の試験でより高いスコアを達成する傾向があります。

IndoMMLUは、すべての学年と教育レベルにわたって、インドネシア語のさまざまな試験を含んでおり、これにより大規模言語モデルのインドネシア語能力を評価することができます。結果は下図のようになります。

GPT-3.5は、1年生で最高の精度に達し、90％に近づくことを示しています。しかし、教育レベルが上がるにつれて、モデルの性能が徐々に低下しています。3年生以上の学年ではスコアが75を下回り、7年生以上では試験に合格できなくなっています。この傾向はmT0xxlとBLOOMZについても同様であり、1、2、3年生のみで合格しています。この詳細な評価は、インドネシア語における大規模言語モデルの能力に対する貴重なベンチマークを提供します。

まとめ

この論文では、インドネシアの言語における言語理解のための新たなマルチタスクベンチマーク「IndoMMLU」を紹介しています。このベンチマークを用いて、現在の大規模言語モデルが地元の言語や文化に関する知識をどの程度理解しているかを評価しています。その結果、GPT-3.5はインドネシアの小学校の試験には合格できますが、より小さなモデルはほぼすべての教育レベルで苦戦することがわかりました。今回評価された24のモデルのいずれも地元の言語や文化の領域でうまく機能しておらず、大規模言語モデルが多様な文化や言語の文脈で有効に機能するためには、それらの文化や言語に対する理解を深める必要があることを強調しています。

また、IndoMMLUにはいくつかの制限があることにも触れています。今回の調査では、マルチモーダルな質問、算数推論タスク、エッセイ形式の質問が含まれていません。そのため、これらの領域は、モデルの理解と批判的思考の能力をさらに深く評価するために、今後の研究で取り組むべき課題とされています。

今後、さらに多様な言語や文化に対する評価が進むことで、より普遍的に活用可能な言語モデルの開発につながることが期待されます。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。