スポーツベッティングにおけるサッカーの試合予測に挑む機械学習モデル
3つの要点
✔️ 海外のギャンブル合法化によるサッカーデータ収集の進化
✔️ 機械学習モデルを用いた試合結果予測の有効性
✔️ 予測精度向上のためのハイパーパラメータと特徴選択の重要性
The Evolution of Football Betting- A Machine Learning Approach to Match Outcome Forecasting and Bookmaker Odds Estimation
written by Purnachandra Mandadapu
(Submitted on 24 Mar 2024)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
プロサッカーは19世紀のイギリスで誕生して以来、ギャンブルと深い関わりを持ってきました。当初は観戦の楽しみの一つに過ぎなかったギャンブルも、時が経つにつれてスポーツ全体に大きな影響を与える要素になりました。
そして、1960年、イギリス議会によって、The Betting and Gaming Act(賭博・ゲーム法)が制定され、ギャンブルが完全に合法化されました。この法律は、サッカーに関するデータ収集の重要性が増していた時期とも重なり、ギャンブルとサッカーデータの世界が急速に発展するきっかけとなりました。
イギリスでは、ギャンブルが合法化されたことで、ブックメーカーは正確なオッズを設定するためにサッカーの試合データをより正確かつ詳細に収集するようになり、その後の60年間でギャンブル業界とサッカーのデータ業界は驚異的な成長を遂げました。
かつては、サッカーのパス回数や得点数などをメモしていた人達が活躍していた時代もありましたが、現在ではギャンブル業者やサッカークラブがデータを活用し、収益性の高い産業へと発展しています。スポーツベッティングサービス(Stake.comやBeeBetなど)が、ここ数年で急速に拡大しています。
サッカーのデータ収集は手作業から最先端技術を活用する高度なツールに進化しています。複数の高解像度カメラによる選手の追跡や、シューズに埋め込まれたセンサー、ボールに内蔵されたマイクロチップなど、あらゆる瞬間が詳細に記録され、試合のあらゆるシナリオが緻密に分析できるようになっています。
さらに、人工知能(AI)、特に機械学習(ML)の導入により、サッカーデータの分析能力が飛躍的に向上しています。多くの研究が、MLを用いた分析が選手の配置やチーム戦略の最適化、トレーニングの改善、試合結果の予測において有効であることを示しています。
この論文では、プレミアリーグの試合結果を正確に予測するモデルを構築しています。歴史的なサッカーデータを活用し、MLモデルを用いて試合結果を予測する最適なアプローチを模索しています。
さらに、これらのモデルが生成する予測をもとに1×2ベッティングのオッズを算出する方法を再現し、新たな観点でオッズの計算を試みています。このオッズは、モデルの予測を評価するための基準として、また試合結果に影響を与える要因を多角的に分析するためのツールとして活用されます。
オッズと1x2ベッティング
スポーツベッティングでは、ブックメーカーがスポーツイベントの結果に対してオッズを設定することが重要な役割を果たしています。ブックメーカーは、どのような結果になってもきちんと利益が得られるように、複雑なアルゴリズムと専門家の意見を組み合わせて、オッズを決定しています。
オッズは、特定の結果が起こる確率に基づいて設定されています。例えば、チームAがチームBよりも強いと見なされる場合、チームAの勝利に対するオッズは低くなります。
この論文では、基本的な賭け方である「1x2」に焦点を当てています。「1」はホームチームの勝利、 「X」は引き分け、「2」はアウェーチームの勝利を表しており、「1x2」は、ホームが勝つか、アウェイが勝つか、引き分けかを選ぶもっともシンプルな賭け方です。
サッカーの多くのリーグでは、各チームが他のチームとホームとアウェーで2回対戦します。この対戦地が予測に与える影響は大きく、ホームでの試合はより良いパフォーマンスを発揮することが知られています。
また、オッズは、1より大きい数値で表され、計算は次の式で行われます。
Pは特定の結果が起こる確率を表しています。例えば、チームAが勝つ確率が50%(0.5)の場合、オッズは2.00になり、これはチームAが勝利した場合、賭けた金額が2倍になることを示しています。
ブックメーカーによって、このオッズは異なり、アルゴリズムや専門家の主観的な評価に影響されます。また、試合直前に選手の怪我やチーム編成の変更などの要因でオッズが変動することもあります。賭けが開始されると、その時点のオッズが固定され、変動しません。
しかし、ブックメーカーは常に利益を得られるように運営しているため、ブックメーカーによっては、賭け客に不利なオッズを設定したり、賭け額に制限を設けたりすることもあります。このような方法は、当然、批判の対象となります。
データセット
データセットには、2021-2022シーズンと2022-2023シーズンのイングランドのプレミアリーグの詳細な統計情報が利用されています。
ウェブスクレイピングを使って、2021-22シーズンおよび2022-2023シーズンに出場した全チームの試合データを収集しています。各チームのページから必要な統計を抽出し、それを整理してデータベースにまとめています。このデータベースが、この論文の分析の基盤になっています。
収集したデータは、プレミアリーグの380試合にわたる各チームの統計を網羅しており、得点、シュート、ゴールキーピング、パスなど、9つのカテゴリーに分類されています。それぞれの試合データは、ホームチームとアウェーチームの情報を一つのデータセットにまとめられています。
最終的に、34の統計値と補足情報を含む1520行52列のテーブルを構築しています。このデータセットは、MLによる分析の準備が整えられており、試合結果の予測やパターンの発見に利用されています。
また、機械学習を始める前に、データを適切に処理することが重要です。まず、生データを整理して、分析に適した状態にする必要があります。欠損データについては、デフォルト値の埋め込みや平均値・中央値を使用して補完するか、K近傍法(KNN)や回帰分析などのアルゴリズムで予測して補っています。また、データに含まれるノイズ(不要な変動やエラー)は、ビニングや回帰、クラスタリングなどの手法で処理しています。
さまざまなソースからのデータを統合する際には、データの冗長性が発生する可能性があるため、注意が必要です。データを分析しやすい形式に整えるために、正規化や集約、一般化を行っています。
さらに、MLのアルゴリズムが適切に機能するように、データを数値形式にエンコードする必要があります。たとえば、この論文では「venue」に関するデータは、ホームを1、アウェーを0とする数値に変換し、「opponent」や「team」に関するデータは、それぞれのチーム名を整数に置き換えています。また、試合結果を示す「result」のデータは、勝利を1(W)、引き分けを0(D)、敗北を2(L)としてエンコードしています。このような処理によって、1x2ベットの形式に対応したデータにしています。
また、「match report」「notes」「referee」「captain」「formation」など、分析に直接関係のない列は、削除しています。また、2022-2023シーズンの最終週の試合データは、各チームのシーズン全体の平均値に置き換えられています。これにより、データが均一に整い、分析の精度が向上しています。
実験概要
今回の実験は、さまざまなMLモデルのパフォーマンスを評価し、最適な予測モデルを探索しています。データの複雑さに応じた適切な特徴量とハイパーパラメータの選定が重要になります。ここでは、ランダムフォレストやKNNなど複数のMLモデルを比較し、どのモデルが最も正確に結果を予測できるかを評価しています。
MLモデルが扱う「特徴量」とは、データの中から抽出されたデータのパターンや性質を指します。これらの特徴量の重要性や、各モデルがどのようにそれらを評価するかを理解することが、予測精度を高める上で重要です。特にサッカーの試合履歴のような時系列データでは、適切なトレーニングデータの選択が重要です。今回のデータセットは、2021-2022シーズンおよび2022-2023シーズンのプレミアリーグの試合データから構成され、さまざまな方法で分割して分析が行われています。
また、Pythonが使用されています。これは、そのシンプルな構造と分かりやすい構文により、再現可能な分析手順を容易に作成できるためであるとしています。コード、可視化、テキストを統合してインタラクティブなデータ探索ができる機能があるため、Jupyter Notebookを開発環境として選んでいます。
初期のデータセットには、多くの試合属性が含まれていましたが、MLアルゴリズムが効率よく処理できるよう、特徴量の数を減らしています。再帰的特徴量削減 (Recursive Feature Elimination, RFE)を使用して、最適な特徴量を絞り込んでいきました。この方法では、まずすべての特徴を使用し、その後重要度の低いものを段階的に削除することで、最適な特徴セットを見つけ出します。
MLモデルの調整には「ハイパーパラメータ」が重要な役割を果たします。モデルの学習プロセスを制御するパラメータで、学習前に設定されます。グリッドサーチやランダムサーチといった手法を用いて、さまざまなハイパーパラメータの組み合わせを試行し、最適な設定を選定しています。これらの手法を通じて、MLモデルのパフォーマンスを最大限に引き出しています。
また、モデルの評価には、主にAccuracy、Precision、Recall、F-1スコアが使用されています。これらの評価指標を用いて、各モデルの予測精度を分析し、最適なモデルを選定しています。
ランダムフォレスト
この論文では、さまざまな機械学習(ML)モデルを用いてサッカーの試合結果を予測し、その効果を評価しています。ここでは、「ランダムフォレスト」の結果を見ていきます。
まず、異なるデータ分割に基づいてモデルのパフォーマンスを評価しています。結果は下表のとおりです。2シーズンにわたるデータ(2 Season of Data)でテストした場合、ランダムフォレストは64.95%のAccuracyを達成し、各クラス(勝利、引き分け、敗北)に対して比較的高いPrecisionとRecallを示しています。
しかし、一部のクラスでは、誤分類が見られ、特定の結果に対するバイアスも明らかになっています。1シーズンのみのデータ(1 Season of Data)でテストしたところ、Accuracyは67.33%に向上しましたが、バイアスは依然として残っています。さらに、直近の試合データ(10 Match Weeks of Data)を用いた予測では、Accuracyが47.73%に低下し、最近のデータのみで予測を行うことの限界が示唆されています。
次に、使用する特徴量(モデルが予測に利用するデータの種類)を変えた場合の結果を分析しています。結果は下表のとおりです。すべての特徴を含めた最初のモデル(All Feature Subset)は、68%のAccuracyでバランスの取れた結果を示しています。
特徴選択技術であるRFEを用いると、Accuracyが69%にわずかに向上し、重要な特徴を選別することの有用性が示されています。しかし、特徴をターゲット変数との相関に基づいて選択した場合、Accuracyは62%に低下し、相関だけに依存する特徴選択の限界が明らかになっています。
さらに、サッカーの試合結果に対するモデルの予測能力も検証しています。結果は下表のとおりです。モデルは、特定の結果に強い傾向を示すことがわかります。例えば、Leeds UnitedやTottenhamが関与する試合では、特定の結果を予測する際に顕著なバイアスが見られ、モデルがこれらの試合に対して高い信頼性を持っていることが示されています。
一方、Crystal Palace対Nottingham sorestの試合では、引き分けを予測する傾向が強く、サッカーの予測における不確実性や変動性をモデルがどのように捉えているかが示されています。
これらの結果は、ランダムフォレストがサッカーの試合結果を予測する上で有効であることを示しつつも、モデルの限界や改善の余地があることも示唆しています。特定の試合に対する予測バイアスや、データの選択方法が精度に与える影響について、今後の研究でさらに探求する必要があります。
サポートベクターマシン
ここでは、サポートベクターマシン(SVM)モデルを用いたサッカー試合結果の予測結果を見ていきます。結果は下表のとおりです。
まず、2シーズンにわたるデータ(2 Season of Data)を使用した場合、SVMモデルは67%のAccuracyを達成しています。特に「アウェー勝利」の予測に強みを示しましたが、「引き分け」の予測には課題があり、92例中30例しか正確に予測できていません。1シーズンのデータ(1 Season of Data)を用いた場合、Accuracyは72.67%に向上しましたが、やはり引き分けの予測に苦戦しています。さらに、直近の試合データ(10 Match Weeks of Data)を使用した場合、Accuracyは45%に大幅に低下し、予測が非常に困難であることが示されています。これは、データセットが小さくなり、試合結果の変動が増したことが原因と考えられます。
次に、すべての特徴量を使用した場合、SVMモデルは72%のAccuracyを示しましたが、やはり引き分けの予測には苦戦しています。
特徴選択手法であるRFEを使用すると、Accuracyは70%にやや低下しましたが、引き分け予測の改善には大きな効果が見られませんでした。また、相関の高い特徴量のみを使用した場合、Accuracyは66.67%に下がり、相関が高い特徴が必ずしも引き分けの予測に有効ではないことが示されています。
全体として、SVMモデルは良好な結果を示したものの、引き分けの予測に一貫して課題が見られます。この結果は、引き分けに特有の複雑さや、まだ見落とされている重要な特徴量が存在する可能性を示唆しています。この問題に対処するためには、引き分け予測に関連する特徴をさらに精緻に選択・エンジニアリングすることが必要と考えられます。
さらに、SVMモデルは一部の試合で高いAccuracyを示したものの、Leeds United、Tottenham、Arsenal、Wolves、Chelsea、Newcastle Unitedなどの試合で予測に誤りが見られます。
これにより、試合予測における統計分析だけでは限界があることが明らかになっています。また、モデルが一部の試合で「引き分け」を選択することをためらう傾向が見られ、これは試合の動態やチームの強さに関する微妙な違いが影響している可能性があります。
K-Nearest Neighbor
ここでは、K-Nearest Neighbor(KNN)モデルを用いたサッカー試合結果の予測結果を見ていきます。結果は下表のとおりです。
まず、2シーズンのデータを使用した場合、KNNモデルのAccuracyは61.52%で、これはSVMモデルのAccuracyよりやや低い結果となっています。、KNNモデルは「アウェー勝利」の予測に強みを示し、158件中125件を正確に予測していますが、「引き分け」の予測では92件中9件しか正確に予測できず、パフォーマンスが著しく低かったことがわかります。この傾向は、1シーズン分のデータを使用した場合でも見られますが、Accuracyは62.67%にわずかに向上しています。
一方、直近の試合データを用いた場合、KNNモデルのAccuracyは38.64%に大幅に低下しています。この低下は、すべてのクラスにおけるPrecision、Recall、F1スコアにも反映されています。
このような結果は、SVMモデルでも見られた課題と同様に、データセットのサイズ縮小や最近の試合における変動性の増大が原因と考えられます。
RFEなどの特徴選択技術を使用してパフォーマンスの向上を図りましたが、KNNモデルのAccuracyは依然としてSVMやランダムフォレストと比べて低く、65.33%となっています。
Extreme Gradient Boosting
ここでは、Extreme Gradient Boosting(XGB)モデルを用いたサッカー試合結果の予測結果を見ていきます。XGBモデルは、2シーズンおよび1シーズンのデータを使用した際のAccuracyが一貫して65%から70%の範囲に収まっています。
KNNモデルと同様に、XGBは特定のハイパーパラメータを選択することでAccuracyが大幅に向上することが確認され、最適なハイパーパラメータの選定がこのモデルの性能に大きな影響を与えることが明らかになっています。実際に、ハイパーパラメータの調整により、Accuracyが約6%向上しています。この結果は、XGBモデルにおける特徴選択やハイパーパラメータの設定が、予測精度の向上において非常に重要であることを強調しています。
また、XGBモデルは、試合ごとのクラス分布が均等ではない場合においても、データ内に独自のパターンを捉える能力があることが示されています。
まとめ
この論文では、サッカーの試合結果を予測するためにさまざまなMLモデルを評価していますが、特に説明可能な人工知能(XAI)の重要性が浮き彫りになっています。モデルの解釈可能性は、サッカーのような複雑な分野では非常に重要です。
また、MLによって計算された「1x2」オッズの精度についても分析し、データ分割による予測の変動性が示唆するように、最近のデータをうまく取り扱うためのさらなる最適化が必要であることがわかりました。
今後の改善点として、データセットの拡張、データの前処理の改善、ハイパーパラメータの広範な探索、そしてニューラルネットワークを含む高度なMLアルゴリズムの導入が考えられます。また、サブセットのサイズを変えての特徴選択や、試合統計のさらなる分析も重要です。
この記事に関するカテゴリー