最新AI論文をキャッチアップ

2024年パリ五輪ハンドボールの結果予測と、LLMを活用した予測根拠の説明

2024年パリ五輪ハンドボールの結果予測と、LLMを活用した予測根拠の説明

Large language models

3つの要点
✔️ フランスのハンドボールチームの2024年オリンピックの結果予測とその解説を試みたモデルを提案
✔️ データの偏りと不足を克服するために、転移学習を活用した予測精度の改善 

✔️ LLMを用いて、試合結果の予測を一般読者向けにわかりやすく要約する手法を導入

AI for Handball: predicting and explaining the 2024 Olympic Games tournament with Deep Learning and Large Language Models
written by Florian Felice
(Submitted on 22 Jul 2024)
Comments: Published on arxiv.

Subjects: Applications (stat.AP); Artificial Intelligence (cs.AI)

code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

オリンピックは、世界中から約80か国、3,000人ものアスリートが集まり、40種類のスポーツで競い合う、世界最大級のスポーツイベントです。2024年のオリンピックは、フランス・パリで開催されました。

特にハンドボールでは、フランスは2020年の東京大会でも金メダルを獲得しており、男女共に優勝候補とされています。自国開催で金メダルを取ることが期待されている注目の種目です。

この論文では、統計学やディープラーニング(DL)、大規模言語モデル(LLM)を用いて、フランスのハンドボールチームが2024年のオリンピックでどのような結果を残すのかを予測し、その結果をわかりやすく説明するモデルを提案しています。

従来の研究では、ツリーベースのモデルが予測に優れているとされていましたが、これらのモデルはすべて数値データを扱うため、スポーツの専門家にとっては理解しづらい点がありました。そこで、この論文では、チーム構成を考慮し、チームのラインナップの情報を取り入れた、よりわかりやすい予測モデルの構築を目指しています。

LLMの進歩によって、スポーツの専門家が、簡単に高度な予測ソリューションを利用できる環境が整いつつあります。

データセットの概要

この論文では、ホームのチームとアウェイのチームが試合で得点するゴール数を予測するためのモデルを開発しています。このモデルでは、機械学習を活用して、過去の試合データを学習し、どのような要因がチームの得点に影響を与えるのかを分析しています。

データは、SportDevsのハンドボールAPIを使用して収集しており、数値データとテキストデータを含むマルチモーダルなデータで構成されています。また、これに基づき、4種類の特徴量を定義しています。

1つ目は、試合情報です。試合の開催日や時間、重要度など、試合に関する基本情報を含む数値データです。時間は、試合の開始時刻を表しており、早朝に行われる試合は、重要度が低い可能性があり、チームの準備不足も考えられます。また、重要度では、下表のように、競技会の重要度を親善試合(4)からオリンピック(10)までのスケールで評価しています。

2つ目は、チーム情報です。チームの構成や疲労度に関する数値データです。これには、移動による疲労度を推定するために、チームの所在地から試合会場までの距離(キロメートル)を表す移動距離のデータも含まれています。また、クラブ数も含まれています。これは、各チームの選手が所属するクラブの数を表します。クラブが少ないほど、選手たちは普段から一緒にプレーしている可能性が高くなります。

3つ目は、チームの強さです。チームの攻撃力と防御力を数値化したデータです。これは、試合の結果に影響を与える重要な要因です。攻撃力、防御力ともに、ホームチームとアウェイチームの能力を推定し、数値化しています。

4つ目は、チームのラインナップです。チームのメンバー構成を示すテキストデータです。試合前に発表される選手リストを使用しています。ホームチームとアウェイチームの選手リストで最大16人です。

データの前処理

これらのデータをモデルに取り込むためには、データの前処理が重要です。特にチームのラインナップのデータでは、選手のフルネームをトークンとして扱い、ホームチームとアウェイチームの選手リストを結合して、最大32人分のベクトルを生成しています。このベクトルは、モデルにとって理解しやすい数値データに変換されます。

しかし、データ収集にはいくつかの課題があります。ラインナップのデータは、必ずしもすべての試合で記録されているわけではなく、欠損している場合もあります。この場合、シーズン中に最後に記録されたラインナップを用いて補完しています。クラブチームのデータに関しては、ラインナップが欠損している試合を除外してフィルタリングしていますが、ナショナルチームの場合は欠損データも含めてモデルに取り込んでいます。

また、データ量に大きな偏りがある点も考慮しています。下表からわかるように、クラブチームのデータは、ナショナルチームよりもはるかに多く、男性で8.9倍、女性で6.1倍の差があります。この差が予測性能に影響を与えるため、クラブチームのデータを活用した転移学習を行うことで、その影響を緩和しています。

試合結果を予測モデルの概要

この論文ではディープラーニング(DL)を採用しています。従来のツリーベースの手法では、選手の年齢や身長といった数値データが使われていましたが、これだけではスポーツの専門家にとって、そのデータがどのように試合結果に影響するのかを理解するのは難しいという問題がありました。

そこで、ニューラルネットワークを活用し、選手個々の情報をより直接的にモデルに取り入れる方法を採用しています。これにより、スポーツの専門家が選手の名前を具体的に特定し、試合に与える影響をより直感的に理解できるようにしています。

具体的には、試合情報やチーム情報、強さに関するデータに加え、埋め込み層を使って、選手のラインナップ情報をモデルに組み込んでいます。この埋め込み層は、選手一人ひとりの名前を固定サイズの数値ベクトルに変換しています。これにより、各選手が持つ特徴が試合結果にどう影響するかをモデルが学習できるようになります。

通常、この埋め込み層の初期設定はランダムに行われますが、この論文では、転移学習という手法を用いることで、事前にトレーニングされたモデルから学習した重みを利用しています。モデルの学習効率が向上し、より精度の高い予測を可能にしています。 

予測結果を解説する言語モデルの概要

この論文の目的は、試合結果を正確に予測するだけでなく、その予測がどのように導き出されたのかをわかりやすく説明することです。そこで、ニューラルネットワークの特性を活かして、Integrated Gradientsという手法を用いて、各入力特徴が予測結果にどの程度影響を与えたかを示すスコアを算出します。これは、入力データと基準となるデータを比較し、モデルの出力に対する入力データの寄与度を求める手法の1つです。

しかし、このようにして得られる説明は、複雑で、対象ユーザーであるスポーツの専門家には理解しづらくなってしまいます。また、試合データの中に多くの項目が含まれるため、そのすべてを適切に解釈するのは非常に難しい作業です。

この課題を解決するために、この論文では、大規模言語モデル(LLM)を活用し、専門的な情報を短く、わかりやすく要約する方法を導入しています。具体的には、オープンソースのMistral 7B instructというモデルを使用しています。このモデルは、インターネット上の膨大なテキストデータを学習しており、さまざまなトピックについて推論し、要約する能力を持っています。また、このモデルをより小規模なサーバーでも実行できるように圧縮し、メモリ使用量を抑える工夫も行っています。

まず、予測モデルとXAI(説明可能なAI)から得られた出力データをLLMに入力します。ここでは、試合の日付やチームの情報、予測スコアなどの基本的なコンテキスト情報を提供し、モデルがこれらの情報を基に試合の要約を生成できるようにします。次に、各特徴量が予測に与える影響を簡単に説明し、モデルに指針を与えます。その結果、モデルは重要な特徴量に注目し、意味のある結論を導き出せるようになります。最後に、XAIから得られた詳細な特徴量のスコアを追加し、選手ごとの情報も含めてモデルに入力しています。

また、LLMが適切な要約を生成できるように、プロンプトにいくつかの例を組み込んでいます。これは、コンテキスト内学習と呼ばれる手法で、過去の試合結果を使ってモデルにどのような出力が期待されるかを学習させる方法です。手動で作成したいくつかの試合レポートを入力し、それを基にモデルが一貫した要約を生成できるようにしています。ただし、モデルが同じパターンを繰り返すだけにならないよう、例に多様性を持たせる工夫も行っています。

最後に、LLMに対して具体的な指示を与えます。どのように入力データを処理し、例を活用するかを明確に指示し、期待される要約の内容や結論についても具体的に説明します。このステップは、モデルが誤った結論を導き出さないようにするためにも非常に重要です。

このようにして、LLMを用いることで、複雑な試合データを、機械学習の専門家ではないユーザーにも理解しやすい形で提供することが可能になります。 

モデルの予測性能

ここでは、開発したモデルが国際大会でどれほどの予測精度を持つかを評価し、さらに転移学習がその精度にどのような影響を与えるかを分析しています。最終的に、2024年オリンピック大会の予測結果を提示し、モデルの説明能力についても評価しています。

まず、国際大会のテストセットで私たちのモデルの予測精度を評価した結果、下表に示されているように、従来の研究と比較して誤差が大きくなっていることがわかりました。この誤差の増加は、クラブチームではなく、ナショナルチームのデータを用いて評価したことが原因と考えられます。

ナショナルチームのデータ量が少ないため、モデルの精度が低下しており、これが転移学習を導入した理由でもあります。上表の結果から、転移学習を用いることでテストセットでの誤差が一貫して減少していることが確認できます。これは、クラブチームのデータで事前にトレーニングされた情報が、ナショナルチームのモデルに役立っていることを示しています。

さらに、下図から転移学習はモデルの学習プロセスに大きな効果をもたらしていることがわかります。転移学習を使用した場合の損失曲線(青色)は、トレーニングセットとバリデーションセットのいずれにおいても、転移学習を使用しない場合よりも低い位置にあります。

また、数エポック後には過学習が発生する可能性がありますが、その影響は転移学習を使用しない場合の方が大きいことが明らかです。この過学習のリスクを軽減するために、バリデーションの損失が減少しなくなった時点でトレーニングを中断する「早期停止」を適用しています。上図では、2エポック後に早期停止を行っています

この結果から、転移学習を使用することで、埋め込み層の重みがランダムに初期化されないため、初期段階からバリデーションの損失が低くなり、最終的にはより良い性能に収束することがわかります。

以上から、クラブチームのモデルで事前に学習した情報を国際大会のモデルに転送することで、トレーニングがスムーズに進み、より正確な予測が可能になることが示されています。

パリ2024ハンドボール大会の予測

2024年のオリンピックでは、フランスが男女両方のハンドボールトーナメントで優勝候補とされています。この期待は、フランスが2024年1月に行われた男子ヨーロッパ選手権でデンマークを延長戦の末に破り(33対31)、ヨーロッパチャンピオンとなったこと、またその直前の女子世界選手権でもノルウェーに勝利し(31対28)、世界チャンピオンに輝いたことにより、さらに注目が高まっています。さらに、フランスの男女両チームは2020年の東京オリンピックでも金メダルを獲得しています。

この論文が開発したディープラーニングを用いた予測モデルを用いて、2024年オリンピックのハンドボール準決勝および決勝の結果を予測しています。予測の結果、前回の大会で決勝に進出したチームが、今回の大会でも再び表彰台に上がる可能性が高いことが示されています。

まず、男子トーナメントについて、下表によると、フランスとデンマークが準決勝で対戦し、地元フランスが勝利すると予測されています。決勝戦では、フランスがクロアチアと対戦し、フランスが新たにオリンピックタイトルを獲得することが期待されます。

次に女子トーナメントでは、下表の予測によると、フランスがノルウェーと対戦し、前回の世界選手権と同様にフランスが金メダルを手にすると見込まれています。また、銅メダルをめぐる戦いでは、スウェーデンが2023年の世界選手権でのリベンジを果たし、デンマークに勝利すると予測されています。

 

LLMによる説明の生成

この論文では、各チームの得点予測に加え、その予測に影響を与えた要因についても分析を行っています。例えば、男子ハンドボールの決勝戦として予測されたフランス対クロアチアの試合に注目しています。この試合では、フランスが35対24で勝利し、金メダルを獲得すると予想されています。

予測の根拠をより深く理解するために、Integrated Gradientsという手法を用いて、ディープニューラルネットワークが各特徴量をどのように利用してスコアを予測したのかを解析しています。この手法によって、各入力データが予測にどのように影響を与えたかを視覚化できます。例えば、フランスチームに焦点を当てた解析では、各特徴量がどの程度予測に貢献したのかが示されています。

次に、試合の予測結果を一般の読者にも理解しやすくするために、LLMを用いて、専門的な内容をわかりやすく要約しています。LLMが生成した要約の例は下図のようになります。

ここでは、フランスがクロアチアに35対24で勝利するという予測が正しく反映されています。モデルは「決勝」という表現は使用していませんが、それでもオリンピックがハンドボールにおいて最も権威ある大会であることを理解しています。

また、モデルはフランスの戦略における重要な選手として、ディカ・メムとエロヒム・プランディを挙げています。さらに、ウイングプレーヤーの速攻における能力にも言及しており、これはフランスチームの強みをよく捉えています。

最後に、クロアチアのセンターバックであるイゴール・カラチッチの影響についても触れており、この選手が2020年のヨーロッパ選手権でオールスターチームに選ばれた実績を強調しています。LLMによる要約は、フランスが強力なディフェンスを武器に勝利を収めるだろうという予測を裏付けています。

まとめ

この論文では、2024年オリンピックのハンドボールトーナメントを予測し、さらにその予測をわかりやすく説明するモデルを提案しています。予測モデルは、ディープニューラルネットワークを基盤にし、クラブチームのデータを用いて事前にトレーニングされたモデルから学んだ転移学習を活用しています。データの量が限られているという課題に直面したものの、このアプローチによって、スポーツの専門家の期待に応える妥当な予測結果を得ることができました。

この論文は、2024年のオリンピック開催前に予測された結果であり、この記事の執筆現在では、すでに結果が出ています。実際の結果と比べると、下表のように、「女子は比較的惜しい結果になっているものの、男子は大きく外れた結果になっています。予測モデルとして精度が低く、さらなる改善が必要と考えられます。男子においては、フランスは1位の予想でしたが、実際は8位という残念な結果になっています。

男子
順位 予測 実際の結果
1 フランス デンマーク
2 クロアチア ドイツ
3 デンマーク スペイン
4 スペイン スロベニア
女子
順位 予測 実際の結果
1 フランス ノルウェー
2 ノルウェー フランス
3 スウェーデン デンマーク
4 デンマーク スウェーデン

今後の改善には、さらなるデータ収集と、その質と量の向上が必要と考えられます。しかし、一部の競技会、特に親善試合において体系的な報告が行われないことが、データ収集の大きなボトルネックとなっています。これには、手動でのデータ収集や、より信頼性の高いデータソースの特定も求められます。

また、予測モデルの性能を高めるために、選手のパフォーマンスや統計(ゴール数やブロック数など)に特化した専用のモデルを開発することが考えられます。このようなモデルを使って、選手個々のパフォーマンスに焦点を当てた埋め込みを行い、より高度な予測を実現することが可能です。ただし、これもまた、各連盟が提供するデータの質と量に依存します。

さらに、LLMによる説明の質をさらに向上させるためには、より効果的なモデル選択が次の課題になると考えられます。この論文では、計算リソースを節約するためにMistral 7B Instructの量子化バージョンを使用していますが、より大規模なモデルや、詳細なプロンプトテンプレートを活用することで、さらに高度な予測や説明が可能になります。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする