GAIA：新しいベンチマークが明らかにした大規模言語モデルの限界

Large language models 2023年12月08日

3つの要点
✔️ 日常のタスクや科学的な問題を含む466の質問を用いて、AIアシスタントの性能を評価できる、新しいベンチマーク「GAIA」を提案。
✔️ 現在の大規模言語モデルは豊富な知識と流暢な文章生成を備えているが、実世界のタスクや複雑な問題に対する評価方法に課題がある。
✔️ GAIAによる評価では、GPT-4などの先進的なモデルが低いスコアを示し、実世界の複雑なタスクに対するその限界を明らかにした。

GAIA: a benchmark for General AI Assistants
written by Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom
(Submitted on 21 Nov 2023)
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

近年、大規模言語モデルが、さまざまな目的に利用できる汎用性の高いモデルとしての可能性を見せつつあります。すでに多くの人が利用しているChatGPTやBardでもわかるように、最新のモデルは、豊富な知識を持ち、流暢に文章を生成し、人間の好みにも合わせられるようになっています。さらに、これらのモデルは、ウェブブラウジングやコード解釈などのプラグインと組み合わせることで、より高度なことを実現することができます。

しかしながら、一方で、これらの進化したモデルをどのように評価するかが大きな問題となっています。大規模言語モデルは、新しい能力を発揮して、様々なベンチマークテストでSOTAの性能を達成しています。そして、現在のトレンドでは、人間にとっても難しいタスクを使って大規模言語モデルを試すことが提案されています。例えば、科学や法律の分野でのより高度な評価、または一貫性のある本を書くなどのタスクです。しかし、人間にとって難しいタスクが必ずしも大規模言語モデルにとって難しいわけではありません。

このような状況から、新しいAIモデルを評価するためのベンチマークをあらためて検討することが求められています。例えば、概念的には単純だが、実行には複雑なアクションを連続で正確に実行する必要があるタスクをAIに解かせるという方法も考えられます。このようなタスクは、成功した実行結果が得られるまで解く必要があり、その出力は簡単に検証できます。特に、AIアシスタントは、実際の事例に基づいており、この基準を満たしていると言えます。

そこで、この論文では、AIアシスタントに焦点を当てて、新しいベンチマーク「GAIA」を提案しています。

GAIAは、466個の質問・回答と、関連する設計方法論で構成されています。これらの質問は作成が比較的簡単で、AIモデルにとっては挑戦的であり、ユニークで事実に基づく答えを持っているため、簡単かつ堅牢な自動評価が可能です。

既存の大規模言語モデルのベンチマークは、特定のもので閉鎖的かつ合成された環境に限定されていますが、本来は、オープンで変化するウェブを閲覧したり、マルチモダリティを扱ったり、複数のステップを超えて推論する必要があります。GAIAでは、より実世界に即した環境で評価することを目指しています。

実際に、人間にとって難しいタスクで高い性能の達成している大規模言語モデルでも、GAIAでは性能が低くなっています。プラグインを活用しても、GPT-4は最も簡単なタスクであっても30％の成功率を超えることができず、最も難しいタスクでは0％という結果を示しています。一方、人間の平均成功率は92％です。今回提案するGAIAで高い性能を達成することができれば、次世代のAIモデルに向けた重要なマイルストーンとして評価されるでしょう。

GAIAとは

GAIAは、AIアシスタントを活用したベンチマークです。人間が設計した466の質問で構成されており、これらの質問はテキストベースですが、中には、画像やスプレッドシートなどのファイルが添付されているものもあります。これらの質問は、日常の個人的なタスク、科学、一般知識など、さまざまなアシスタントの使用事例を網羅しています。質問は短く、正しい単一の回答があるように設計されているため、検証が容易になっています。

以下はGAIAの質問のサンプルです。これらのタスクを完了するには、推論、マルチモダリティの扱い、プラグインの使用技術などの基本的な能力が必要です。いくつかの質問には、実際の使用事例を反映し、画像などの追加資料が含まれています。

GAIAでの評価は自動化され、迅速かつ事実に基づくように設計されています。実際には、各質問に対して、文字列（一語または数語）、数値、または、文字列や浮動小数点数のコンマ区切りのリストといった回答が求められます。そして、正しい答えは1つだけです。したがって、評価はモデルの回答と事実との間の一致性（quasi exact match）で行われます。下図のように、プロンプトが使用され、モデルに要求される形式を知らせます。また、スコアリング関数とリーダーボードが提供されています。

GAIAによる性能評価

GAIAでは、モデルに質問をする際に、特定のフォーマットを指定するプレフィックスプロンプトを使用しています。このアプローチを使って、GPT-4（プラグインあり・なし）と、GPT-4をバックエンドとするAutoGPTを評価しています。現在、GPT-4は手動でプラグインを選択する必要がありますが、AutoGPTはこれを自動的に行うことができます。

したがって、GPT-4では、ユーザーが与えられたタスクに応じて、コード実行とファイル読取り機能を提供する「アドバンストデータ分析モード」と、リンクを読むツール、ウェブブラウジング、計算ツールの3つのサードパーティプラグインを手動で選択しています。しかし、GPT-4のプラグインは頻繁に変更されたり、ストアから消えたりするため、一定期間にわたって安定したプラグインセットを使用することは現在できません。そのため、プラグイン付きのGPT4のスコアはオラクル推定（ “oracle” estimate、理想的な状況に基づく推測）として扱われています。また、この他にも人間の注釈者とウェブ検索も比較の基準として使用されています。ウェブ検索では、質問を検索エンジンに入力し、最初のページの結果から答えを導き出せるかどうかを確認しています。

GPT-4（プラグインあり・なし）とAutoGPTをGAIAで評価した結果は下図のようになっています。GAIAで提案された難易度レベルは、現在のモデルのパフォーマンスと相関しており、その妥当性を裏付けています。人間はすべてのレベルで優れたスコアを示していますが、現在の最高の性能を示すとされる大規模言語モデルは非常に低いスコアを示しています。

人間によるウェブ検索では、レベル1の質問に対しては正しい答えを導き出すことができるかもしれませんが、少し複雑なクエリでは機能しないことがあります。これは、AIアシスタントが検索エンジンと競合する可能性を示しています。プラグインなしのGPT-4と、他の結果を比べると、プラグインやウェブへのアクセスによって大規模言語モデルを拡張することで回答の精度が向上することを示しています。GPT-4を自動的にツールを使用させるAutoGPT-4は、特にレベル2やレベル1で、プラグインなしのGPT-4とよりも低いスコアを示しています。また、タスクごとに得たスコアは下図のようになっています。

まとめ

この論文では、AIアシスタントに焦点を当てて、大規模言語モデルのベンチマークの見直しを行っており、GAIAと呼ばれる新しいベンチマークを提案しています。

GAIAは、従来のベンチマークのように特定の性能評価に特化したものではなく、概念的には単純だが人間にとっては面倒かもしれない、現実世界に根ざした多様で挑戦的な質問で構成されています。また、解釈可能性の考慮されています。限られた数の厳選された質問であるため、使いやすくなっています。また、タスクの概念的も単純なものであるため（人間の成功率は92%）、モデルの推論をトレースしやすくなっています。さらに、GAIAは、従来のベンチマークよりもゲーム化されにくい設計になっています。タスクを完了するためには、いくつかのステップを計画的に正確に実行する必要があります。これらのタスクは、その多様性とアクションパターンの多さからブルートフォースで解くことはできなくなっており、チートが通用しにくくなっています。

GAIAは、質問への回答は事実に基づいており、簡潔で明確です。これによって、簡単で迅速かつ事実に基づいた評価ができます。

しかしながら、いくつか課題があります。GPTのように、APIを通じてのみアクセス可能なモデルの性能は時間とともに変わる可能性があるため、特定の時点での評価が後で再現できない可能性があります。また、ChatGPTのプラグインは定期的に変更され、APIを通じてアクセスできないため、評価の再現性がさらに難しくなっています。

また、GAIAは多くの手作業で選ばれた質問を含んでいますが、時間と共にその内容が古くなったり、ウェブ上の情報が消失することで、その有効性が低下する可能性があります。また、GAIAの質問は、明確で曖昧さのないものでなければなりません。これを実現するためには、複数の注釈者が必要ですが、このプロセスにはコストがかかります。さらに、GAIAはすべての質問を英語で行っており、英語を話さない人々や英語圏外のウェブに関する内容には対応していません。これは、GAIAが英語圏の範囲でしか、AIアシスタントの有用性を評価することができないことを意味しています。

GAIAは有用なベンチマークですが、評価プロセスの再現性、時間の経過による質問の劣化、質問設計のコスト、そして言語と文化の多様性の欠如といったいくつかの限界があります。これらの限界を理解し、将来的な改善のために考慮することが求められます。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。