大規模言語モデルのスポーツの理解力を測る新データセット「SportQA」
3つの要点
✔️ LLMのスポーツの理解力を評価するための初のデータセット「SportQA」を開発、公開
✔️ SportQAを使い、LLMのスポーツの理解能力における強みと弱みを分析
✔️ スポーツジャーナリズムの向上やアスリート支援におけるNLP技術の新たな可能性を示す
SportQA: A Benchmark for Sports Understanding in Large Language Models
written by Haotian Xia, Zhengbang Yang, Yuqing Wang, Rhys Tracy, Yun Zhao, Dongdong Huang, Zezhi Chen, Yan Zhu, Yuan-fang Wang, Weining Shen
(Submitted on 24 Feb 2024 (v1), last revised 18 Jun 2024 (this version, v2))
Comments: NAACL 2024
Subjects: Computation and Language (cs.CL)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
スポーツの世界では、多様な競技、ルールや戦術、個人と団体、個々人の選手の特性など、さまざまな要素が絡み合っています。そのため、スポーツをよく理解し、精通した大規模言語モデル(LLM)を構築することは、非常に難しいと言われています。
LLMは、自然言語理解や情報抽出、質問応答などのタスクで優れた性能を示してきましたが、スポーツのように複雑なデータや戦略が絡む分野での応用は、まだ十分とは言えません。
例えば、スポーツファンであれば、「2022年のFIFAワールドカップで優勝したチームは?」という質問にすぐに答えられると思います。しかし、「なぜバレーボールの試合では、初心者はフロートサーブを多く使い、上級者はあまり使わないのか?」という質問に答えるには、専門知識が必要です。
スポーツ分野におけるLLMの能力を評価するためには、このような一般的な質問から深い分析が求められる質問まで含んだスポーツに特化したデータセットが必要です。
これまでもスポーツにおけるLLMの能力を評価するために、BIG-benchやLiveQAなどのデータセットが構築されています。しかし、これらはスポーツの広範な知識や複雑な文脈に十分に対応できていません。品質にも課題があり、例えば、「トム・ブレイディ(フットボール選手)がサッカーの試合でタッチダウンを決めた」など、事実と異なる内容の質問も含まれています。
この課題を解決するため、この研究では「SportQA」という新たなデータセットを構築しています。SportQAは、70,000を超える質問を含んでおり、LLMのスポーツ分野における能力を正確に評価するために、スポーツに関する基本的な知識から複雑な推論が求められる問題まで幅広く網羅しています。
スポーツ分野におけるLLMの能力には、さまざまなレベルの難しさがあります。この論文では、3つのレベル(Level-1からLevel-3)に分類・定義しています。
Level-1は、事実や歴史的知識を問う21,385問です。オリンピックのメダリストなど、スポーツファンならすぐに答えられる質問です。
Level-2は、ルールや戦術の理解を問う45,685問です。例えば、サッカーのオフサイドに関する知識が求められるような質問です。
Level-3は、複雑なシナリオの分析が求められる3,522問です。長年の経験を持つ専門家向けの質問です。例えば「バレーボールの試合で3人のブロッカーをどのように突破するか」という高度な判断を問う質問です。
Level-1とLevel-2の問題は適切な選択肢を1つ選ぶ選択式問題、Level-3は適切な選択肢を複数選ぶ選択式問題であり、質問の難易度が上がっていきます。
この論文では、このSportQAを用いて、Llama2、PaLM2、GPT-3.5、GPT-4など最先端のLLMの性能を評価しています。GPT-4は、すべてのレベルで他のモデルを上回る結果を示し、Level-1で82.16%、Level-2で75%、レベル3で47.14%の正答率を達成しています。
しかし、このLevel-3の正答率は、人間の専門家に比べて約45%も低く、この分野では、まだ改良の余地があることも示唆しています。
SportQAデータセット
SportQAは、自動と手動を組み合わせた方法で構築されています。Level-1とLevel-2の質問は、自動生成されたテンプレートにスポーツの専門家が修正を加え、さまざまなスポーツ知識を網羅する質問になっています。Level-3の質問は、すべてスポーツの専門家が手動で作成しており、実践的で分析が必要な質問になっています。
また、データセットの正確性と一貫性を保つために、36名のアメリカと中国の学生アスリートが、各質問を精査しています。彼らは、最低でも8年以上のスポーツ経験を持ち、ルールや戦略を十分に理解しています。学生アスリートの募集では、各候補者にレベルごとの例題を使った面接を実施し、トレーニングを行なってから正式にアノテーション作業を担当してもらっています。
Level-1
Level-1の質問は、LLMがスポーツに関する基礎知識をどの程度知っているかを評価するために設計されています。主に事実や歴史的な情報を問うものです。21,385問の選択式の質問が含まれており、さまざまなQAデータセットから抽出したものを使用しています。これらのデータセットには、真偽形式、複数選択、自由回答などのさまざまな形式があり、それらを選択形式に統一しています。
例えば、Trivia QA、QUASAR、Hotpot QAなどのデータセットは、自由回答形式の質問が多かったため、選択式の形式に変換しています。また、KQA Proの質問はもともと選択式だったため、そのままの形式で、内容の正確性と関連性を確認した上で使用しています。
前述の通り、Level-1の質問は自動と手動を組み合わせた方法で作成されています。
Level-2
Level-2の問題は、スポーツに関するルールや戦術、さらには歴史や事実に基づいた広範な知識をLLMがどれだけ理解しているかを評価するために設計されています。45,685問の選択式の質問が含まれており、さまざまなスポーツにわたる幅広い内容を網羅しています。
Wikipediaから35種類の異なるスポーツに関する情報を集めています。オリンピック競技28種や2024年パリオリンピックで初めて採用される4つの新しい競技(ブレイキング、スポーツクライミング、スケートボード、サーフィン)、さらに野球やアメリカンフットボールといったオリンピック競技ではないものの、人気のスポーツが含まれています。
前述の通り、Level-2の質問も自動と手動を組み合わせた方法で作成されています。すべての質問が元の情報源と矛盾していないかをレビューチームが確認し、最新の情報に基づいていることを検証しています。また、古くなったり関連性が薄れたりした質問は削除し、整合性を保つようにしています。
Level-3
Level-3の問題は、SportQAの中で、最も難易度の高い質問です。サッカー、バスケットボール、バレーボール、テニス、卓球、アメリカンフットボールの6つの主要スポーツに関する3,522のシナリオの質問が含まれています。
これらの質問は、単純な知識を問うものではなく、現実のスポーツ場面を再現し、LLMがどれだけ深い理解と分析力を持っているかを評価するものです。質問は1つから4つの正解を持つ複数選択形式です。
前述の通り、Level-3の質問は自動ではなく、手動で作成されています。手動で行われている理由は、この難易度の質問を作成するためには、各スポーツに関する専門的な知識が求められるためです。単なる表面的な知識ではなく、実際にスポーツを経験し、戦略や実践的な場面に精通している人たちの深い洞察が求められます。
まず、各スポーツのコーチに対して、どのような角度から評価すべきかの提案を依頼しています。コーチの豊富な指導経験を活かし、各質問が効果的かつ実践的なものになるように設計されています。そして、コーチから提案された評価角度を基に、レビューチームがスポーツの専門知識と自身の競技経験を活かして質問を作成しています。
実験
SportQAベンチマークを用いて主要なLLM(Llama2-13b-chat、PaLM-bison-chat、GPT-3.5-turbo、GPT-4など)の性能を評価しています。各実験は複数回行われ、最も良い結果を示しています。
Level-1では、テストセットからランダムに2,000問を選んでいます。Level-2では、スポーツごとの質問数に基づき、異なるサンプリング戦略を採用し、質問数が200未満のスポーツでは全体の30%、200〜800のスポーツは15%、800〜1500は5%、2500〜10,000のスポーツは2.5%、10,000以上の場合は1.5%をサンプルとして抽出し、合計2,243問の質問を選んでいます。Level-3では、スポーツごとの質問数に応じて、サッカー、バスケットボール、テニスでは20%、バレーボールでは30%、卓球とアメリカンフットボールでは50%を抽出し、計980問の質問を選んでいます。
また、主にChain of Thought(CoT)プロンプト法を用いてモデルの評価を行っています。CoTは、段階的に推論を進める方法で、特に複雑なスポーツ理解のタスクに効果的であるとされています。加えて、Zero-shot CoTやFew-shot standard prompting(SP)も比較として採用しています。
さらに、人間との能力の比較も行っています。モデルの性能評価に加えて、レビューに参加していない学生アスリートを募集し、Level-3のテストセットを手動で解答してもらっています。スポーツに精通した専門家の能力を基準にし、モデルと人間の能力を比較しています。
異なるモデルの性能を3つのレベルで比較した結果は、下表のようになっています。
GPT-4は、すべてのタスクで他のモデルを一貫して上回り、他のモデルに比べて平均15%以上の性能差を示しています。また、プロンプトの形式についても、CoTが効果的であることが確認できます。
Few-shotを用いた段階的なプロンプトが、特に複雑な推論を必要とするタスクにおいてモデルのパフォーマンスを向上させるという傾向は、過去の研究(Wei et al., 2022)でも確認されており、今回の実験でもその効果が裏付けられていることがわかります。
GPT-4は、Level-1で最も高い正確性を示し、Level-2やLevel-3に進むにつれて正確性が徐々に低下しています。これは、各レベルでタスクの複雑さが増していくことに伴うもので、複雑なシナリオを扱うLevel-3が、モデルにとって最大の課題となっています。
しかしながら、GPT-4が全体的に優れた性能を示している一方で、Level-3では、人間の専門家の正答率が30%から65%ほど上回っていることがわかります。スポーツにおける人間の知識と理解の深さと比べると、LLMには改善できる余地があることを示しています。
エラー分析
各レベルからランダムに20問を選び、手動でエラー分析を行っています。モデルに対して、自らの判断理由を説明させ、その説明をレビューすることで、どのようなエラーが発生したかを特定し、その背後にある原因を探っています。
Level-1とLevel-2では、「概念理解の欠如(Deficiency in Conceptual Understanding)」が最も多く、全体の40%を占めています。また、Level-3では、複雑な問題が多いため、エラーもより高度なものになっており、「概念的な誤解(Conceptual Misunderstanding)」が最も多く、全体の55%を占めています。
このエラーは、例えば「審判」と「仲裁者」の違いを区別できないなどのケースがあります。これは、モデルが複雑なシナリオに含まれる概念を正しく理解できていないと考えられます。
まとめ
この論文では、LLMのスポーツに関する理解力を評価するために、新たなデータセット「SportQA」を構築しています。これまでのデータセットは、基本的な事実やスポーツ関連の基礎知識に関する質問に重点を置いていたのに対し、SportQAは歴史的事実、ルール、戦略、さらにシナリオベースの推論といった、高度なスポーツに関する知識と洞察を求める質問まで網羅しています。
評価結果では、GPT-4がスポーツの基本的な知識やルールの理解においては、優れた性能を示しましたが、複雑なシナリオベースの推論に関しては依然として課題があり、人間の専門家の知識には及ばないことが明らかになっています。
スポーツのような多様で変化の多い領域において、LLMがより深い理解を得るためには、自然言語処理(NLP)やAIのさらなる進歩が必要であることが示されています。
SportQAは、スポーツ分野におけるLLMの理解力を測定し、向上させるための重要なツールとして、今後の研究において広く活用されることが期待されます。
この記事に関するカテゴリー