大学レベルの教養に挑む: 大規模マルチモーダルモデルのための新ベンチマーク「MMMU」

Large language models 2023年12月18日

3つの要点
✔️ 汎用人工知能（AGI）のレベル3として定義される「エキスパートAGI」の進歩を評価する方法の重要性を提起。
✔️ 大学レベルのマルチモーダル理解を評価するための新しいベンチマーク「MMMU」を提案し、AIモデルの専門知識と推論能力を評価。
✔️ 現在のAIモデル（GPT-4Vを含む）はMMMUで低い性能を示しており、エキスパートAGIの達成に向けて更なる改善が必要であることを指摘。

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI
written by Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen
(Submitted on 27 Nov 2023)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

大規模言語モデルの急速な進歩によって、汎用人工知能（AGI：Artificial General Intelligence）の議論が活発になっています。AGIについては、Morrisらが明確な定義、階層分類を提案しています。この中で、特に重要なのがレベル3の「エキスパートAGI」とされ、これは多くのタスクで熟練した成人の上位10％に匹敵するAIを意味しています。AIがこのレベルに達すると、多くの産業で人間の代わりに機械が使われるようになり、仕事の失業や経済への影響が懸念されることになります。エキスパートAGIの進歩を注視することは重要です。

しかし、その「エキスパートAGI」の進歩をどのように測定するかが問題になります。基準としては、大学レベルの試験が有効です。これまでのベンチマークではテキストベースの質問が中心でしたが、人間はテキストだけでなく画像を含む多様な問題を解決できます。そこで注目されているのが、テキストと画像の両方を理解する大規模マルチモーダルモデルです。これらは、既存のマルチモーダルベンチマークで高い成績を収めています。しかし、これらのベンチマークは専門知識よりも常識や日常的な知識に焦点を当てているため、エキスパートAGIの評価には不十分です。

この問題を解決するため、この論文では「MMMU」という新しいベンチマークを提案しています。これは大学レベルの多分野マルチモーダル理解と推論に特化したもので、芸術・デザイン、ビジネス、科学、健康・医学、人文・社会科学、技術・工学の6つの分野をカバーしています。大学の試験や教科書から集めた約11,500の多様な質問が含まれており、これらの質問は30科目、183のサブフィールドにわたり、様々なタイプの画像（例：チャート、地図、楽譜）を含んでいます。

MMMUには、専門家レベルの推論を必要とする問題が含まれており、深い知識を要求されます。さまざまな画像形式の理解や、テキストと画像を組み合わせた問題解決能力も試されます。

14のオープンソースモデルとGPT-4Vをこのベンチマークで評価した結果、GPT-4Vが最高でも56%の正確性しか達成できず、AIモデルの大幅な改善の必要性を示しています。MMMUはエキスパートAGIの進捗を測定するための新しいアプローチを提供しています。このベンチマークによって、より専門的で高度な人工知能の開発を促進することを目指しています。

MMMUベンチマークとは

MMMUに含まれているデータセットは、芸術・デザイン、ビジネス、科学、健康・医学、人文・社会科学、技術・工学の6つの分野、30の科目、183のサブフィールドをカバーしており、その詳細な科目と統計は以下のようになっています。ベンチマークの質問は、50人の大学生（共著者を含む）によって、オンラインソース、教科書、講義資料から手作業で収集されています。

データを集める過程では、どの科目を含めるかを決めるために、大学の主要な専攻を調べています。選択基準は、視覚情報が必要な科目かどうかです。この基準に基づき、関連する視覚資料が少ない法学や言語学のような科目は除外しています。結果として、6つの異なる分野から30の科目を選んでいます。次に、これらの専攻の大学生50人以上を、問題収集のためにアノテーターとして採用しています。教科書やオンライン資源から多様な問題を集め、自分たちの専門知識に基づいて新しい質問を作成しています。ただし、コピーと再配布が禁止されているサイトからのデータは避けるよう指示されています。最終的に、13,000個以上の問題を様々なソースから収集しています。

次に、データの品質を高めるために、2段階のデータクリーニングを行っています。第一段階では、重複する可能性のある問題を特定し、排除しています。第二段階では、共著者たちが問題のフォーマットや誤字をチェックし、必要に応じて修正しています。最後に、問題を「非常に簡単」、「簡単」、「普通」、「難しい」の4つの難易度に分類し、非常に簡単な問題の約10%を除外し、問題集の品質と難易度を整えています。

このベンチマークは、他のベンチマークとは異なり、大学レベルの知識をカバーしています。従来のベンチマークは、主に日常知識や常識に焦点を当てており、画像の種類も限られていました。しかし、このベンチマークでは、図表、表、チャート、化学構造、写真、絵画、幾何学的形状、楽譜、医療画像など、30種類の画像形式を含む広範な内容を目指しています。また、従来のベンチマークが要求するのは一般的な知識や単純な理論的推論であるのに対し、このベンチマークは、大学レベルの科目知識を用いたより高度な推論を必要とされます。

実験結果

MMMUベンチマークを使用して、大規模言語モデル（LLM）と大規模マルチモーダルモデル（LMM）を比較検証した結果は下表のようになっています。現在の大規模言語モデル（LLM）と大規模マルチモーダルモデル（LMM）にとって、非常に高度なベンチマークであることがわかります。最も先進的と言われているGPT-4Vであっても、わずか55.7%の精度に留まり、改善余地が大きいことを示しています。ベンチマークがAGIを目指した高い要求水準を持つことが反映されています。

GPT-4Vのような独自モデルと、オープンソースモデルに大きな性能差があることを示しています。BLIP2-FLAN-T5-XXLやLLaVA-1.5のような主要なオープンソースモデルは約34%の精度に達していますが、これはGPT-4Vの約56%よりも大幅に低い精度です。

また、データセットの分野ごとでの性能を比較すると、芸術・デザインや人文・社会科学など、画像がより「自然」であり、問題が比較的少ない推論を必要とする分野では、比較的高い性能を示しています。逆に、科学、健康・医療、技術・工学のように、複雑な知覚と複雑な推論を必要とするタスクが多い分野では、低い性能を示しています。

また、さらに、GPT-4Vに関するエラー分析もおこなっています。GPT-4Vの予測からランダムにサンプリングした150のエラー事例を調査しています。これらの事例は専門のアノテーターによって分析されています。エラーの分布は下図のようになっています。GPT-4Vのエラーで最も一番多いのは、Perceptual Error（知覚エラー）です。

まとめ

この論文では、大規模言語モデル（LLM）と大規模マルチモーダルモデル（LMM）の能力を評価する新しいベンチマーク「MMMU」を提案しています。エキスパートAGIの進歩を評価する重要なベンチマークとして提案されています。MMMUは、現在の大規模言語モデル（LLM）と大規模マルチモーダルモデル（LMM）の基本的な知覚能力の限界を示すだけでなく、複雑な推論や深い知識を扱い能力も評価することができます。様々な専門分野に精通した大人に期待される専門知識と推論能力が求められ、エキスパートAGIの進歩を評価するベンチマークとして有用性が高いとしています。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。