サッカー選手の市場価値を予測、機械学習でわかる未来のスター選手
3つの要点
✔️ サッカー選手の市場価値を予測するための機械学習モデルを構築
✔️ 特徴選択にBoruta、モデル解釈にSHAPを使用し、パフォーマンス指標を可視化
✔️ GBDTが最も高い精度を達成
Explainable artificial intelligence model for identifying Market Value in Professional Soccer Players
written by Chunyang Huang, Shaoliang Zhang
(Submitted on 8 Nov 2023 (v1), last revised 23 Nov 2023 (this version, v2))
Comments: 13pages, 6figures
Subjects: Machine Learning (cs.LG); Computers and Society (cs.CY); Computational Finance (q-fin.CP)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
サッカーは、世界で最も人気のあるスポーツの一つです。その人気は、競技そのものを超えて、数千億円規模の経済活動を支えるまでに広がっています。特に、サッカー選手の移籍の市場は経済的な影響力が大きく、サッカー産業において重要な要素となっています。選手の市場価値を正確に評価することは、移籍交渉やクラブの財務戦略など、クラブ経営において重要な意味を持っています。
高額な移籍交渉は、クラブの評価や経済的成功に大きな影響を与え、その正確な評価は、クラブの財務の安定や長期的な成功に繋がります。また、選手の市場価値は、給与方針やクラブの予算計画にも大きな影響を与えるため、この評価はクラブの経営戦略において非常に重要です。
近年では、データ分析や機械学習技術が、選手の市場価値の評価においても重要な役割を果たしています。SoFIFAやTransfermarktなどのオンラインプラットフォームの登場によって、選手のパフォーマンスデータが詳細にわかるようになっており、これらを活用して選手の市場価値を予測するモデルの精度が向上しています。
Mustafa A. AL-ASADIとSakir Tasdemirの研究では、サッカーゲーム「FIFA 20」のゲームデータを使って、選手の市場価値を予測する機械学習モデルを構築し、ランダムフォレストが従来の統計モデルを上回り、最も高い予測精度を示したと報告しています。
同様に、McHaleとHolmesの研究では、XGBoostが従来の統計モデルを大幅に上回る精度を達成し、Yangらの研究でもランダムフォレストが市場価値評価において優れた結果を出しています。
このような背景から、この研究では、アンサンブル機械学習モデルとSHAP(SHapley Additive exPlanations)法を使用して、選手の市場価値に影響を与える要素を詳細に分析しています。この手法により、ローカルおよびグローバルな視点から選手の評価を分かりやすく可視化し、重要なパフォーマンス指標を特定しています。
この研究は、サッカー選手の市場価値の評価において新たな視点を提供し、スポーツ経済における意思決定プロセスに貢献することが期待されます。また、優れたサッカー選手の評価の可視化は、サッカーファンが競技を楽しむうえでも欠かせない要素です。
手法
データセット
サッカーファンによく知られているSoFIFAに掲載されているデータを詳細に分析しています。このウェブサイトには、選手の評価やチーム構成、ポジション、利き足など、選手に関する豊富な統計情報が掲載されています。
分析対象は、2023年1月5日時点でSoFIFAに登録されている約12,000人の選手に関するデータです。このデータセットには、選手の名前や市場価値、給与、総合評価、潜在能力など、計34項目の特徴が含まれています。これらのうち29項目はフィールドプレイヤーに関するものであり、5項目はゴールキーパーに特有の特徴です。下の表が、項目の一覧です。
データの準備段階では、欠損値の補完や、フィールドプレイヤーとゴールキーパーという2つのカテゴリの分類のためのデータクレンジングが行っています。分析に使用された選手の市場価値は、下図のように15,000ユーロから1億9,000万ユーロまで幅広く分布しています。
この分布を見てみると、市場価値が低い領域に多くの選手が集まっている一方で、少数の市場価値が高い選手が分布に大きく影響を与えていることがわかります。いわゆる「スーパースター効果」が表れており、一部の人気選手が非常に高い市場価値を持つという現象が示されています。
しかし、こうした市場価値が高い選手のデータは、パフォーマンス中心の分析に影響を及ぼすため、下図のように市場価値が2,500万ユーロを超える約3%の選手のデータを除外しています。
また、データの分布が偏っているため、統計モデルの精度を高めるために、Box-Cox変換を用いています。この変換によって、下図のようにデータの対称性を改善しています。
特徴選択とモデル選択
データセットには、サッカー選手のパフォーマンスに関する29項目の特徴が含まれていますが、全てがモデルの予測に有用とは限りません。特徴が多すぎると、計算に時間がかかるだけでなく、予測精度に悪影響を及ぼす可能性もあります。
この研究では、特徴選択のために、Borutaを用いています。このアルゴリズムは、ランダムフォレストを基にした手法で、重要な特徴を特定する際に有用です。特徴の重要性をランダムに並べ替えたシャドウ特徴量と比較し、反復的なプロセスで重要な特徴を見極めるという仕組みです。計算効率を保ちながら最適な特徴を選択しています。
また、選手の市場価値を予測するための最適なモデルを選定するために、いくつかの学習アルゴリズムを評価しています。この研究では、Adaboost、LightGBM、GBDT、CatBoost、XGBoostなどが含まれています。
さらに、この研究では、アンサンブル学習を用いて、複数のモデルを統合するアプローチを採用しています。アンサンブル学習は、複数のモデルから得られた予測を組み合わせることで、単一のモデルよりも精度が高くなるという利点があります。この手法により、モデルのバイアスや分散を減らし、全体的な予測性能を向上させることが期待されます。
予測モデルの開発と評価
予測モデルの開発では、まずデータセットをランダムに分割し、80%をトレーニングと検証に、残りの20%をテストに割り当てています。また、トレーニングセットに対してのみ欠損値の補完や特徴選択を行い、テストセットがバイアスの影響を受けないようにしています。
各アンサンブル学習モデルの性能を最大限に引き出すために、5分割の交差検証法とグリッドサーチを組み合わせてハイパーパラメータを調整しています。
また、予測モデルの評価には、複数の機械学習アルゴリズムを用いて、さまざまな指標でその精度を測定しています。特に、決定係数(R-squared value、R²)と二乗平均平方根誤差(Root Mean Squared Error、RMSE)を使用して、モデルの予測性能を多面的に評価しています。R²値は、独立変数が従属変数の変動をどれだけ説明できるかを示し、RMSEは予測誤差の大きさを示します。これらの指標を組み合わせることで、モデルの精度を総合的に評価しています。
予測モデルの解釈
機械学習モデルは、ブラックボックスとして扱われ、特に選手の市場価値を評価する際には、どの要素が予測に影響を与えているかを理解するのが難しいと言われています。この問題を解決するために、LundbergとLeeが提案した「SHAP(SHapley Additive exPlanations)」というアプローチがあります。これは、ゲーム理論に基づく「Shapley値」を用いて、モデルがどのように予測を行っているかを明らかにし、特徴ごとの影響を視覚的に解釈できるようにします。
この研究では、まずグローバルな解釈のために「SHAPビースウォームプロット(SHAP beeswarm plot)」と「特徴重要度(feature importance measures)」の指標を使用しています。ビースウォームは、各特徴が予測にどのように影響しているかを視覚的に示し、特徴の重要性をランク付けします。プロットでは、y軸に特徴が並び、x軸にSHAP値が表示されます。赤は高い特徴値、青は低い特徴値を示し、それぞれが予測にどの程度プラスまたはマイナスの影響を与えるかが一目でわかるようになっています。
次にローカルな解釈として、個々の選手の市場価値を予測するために「SHAPフォースプロット(SHAP force plot)」を使用しています。フォースプロットは、各特徴がどのように最終的な予測結果に寄与したかを視覚化し、基本値(予測の平均値)から最終的な予測までの流れをグラフィカルに表現します。予測をプラスに導く特徴は赤で、マイナスに導く特徴は青で示され、これにより、どの要素が選手の市場価値にどのように影響を与えたかが詳細に理解できます。
さらに、各特徴が予測結果に与える影響をより深く理解するために、「部分依存プロット(Partial Dependence Plot、PDP)」も使用しています。PDPは、特定の特徴の値が予測にどのような影響を与えるかを他の要素の影響を平均化した上で示し、その特徴が市場価値にどれほど関与しているかを独立して評価します。特定の要素がどのように選手の評価に寄与しているかをさらに明確にすることができます。
このようにして、SHAPを用いることで、モデルの内部を解釈し、選手の市場価値に影響を与える要因をより詳細に理解できるように工夫しています。
実験
データ収集から特徴選択、モデル開発、検証、モデルの評価と解釈を含む包括的な設計は、下図のようになっています。
なお、この論文では、分析対象として、三笘薫選手の顔画像が使われていますが、本文中には「Teruki Miyamoto」と記載されており、市場評価額が三笘薫選手の実際の金額よりも著しく低くなっているため、誤りと考えられます。
特徴選択
特徴選択の段階では、サッカー選手のパフォーマンスに関連する29項目の特徴を用いて分析を行っています。ここで使用したBorutaは、PythonのBorutaShapパッケージを活用し、モデルにとって重要な特徴を自動的に選択しています。結果として、22項目を選択しています。選ばれた22項目の特徴は、選手の市場価値に最も影響を与える要素として評価され、下図の緑のバーで示されています。
具体的な特徴としては、加速、ヘディング精度、守備意識、視野、ボレーシュート、スプリントスピード、ロングパス、ポジショニング、立った状態でのタックル、ドリブル、フリーキック精度、ショートパス、インターセプト、ペナルティ、フィニッシュ、リアクション、ボールコントロール、スタミナ、クロス、ストレングス、シュート力、スライディングタックルが含まれています。
これらの特徴は、選手のパフォーマンスや市場価値を的確に評価するための重要な指標として機械学習モデルに貢献しています。
モデルの評価
クロスバリデーション分析とテストセットの評価結果は、下表の通りです。6つの学習アルゴリズムの中で最も優れたパフォーマンスを発揮したのは、Gradient Boosting Decision Tree(GBDT)モデルで、R²=0.889という最も高い値を示しています。次いで、CatBoostモデルがR²=0.887で2位、LightGBMがR²=0.885で3位となっています。ランダムフォレストとXGBoostは、それぞれR²=0.877とR²=0.861を記録し、AdaBoostはR²=0.773と最も低い結果を示しています。
RMSEの結果でも、GBDTモデルが最も優れた結果を示し、RMSEは3221632.175と最小値を記録しています。次いでCatBoost(RMSE=4715039.662)、LightGBM(RMSE=3249280.179)、ランダムフォレスト(RMSE=3505068.837)、XGBoost(RMSE=3320149.832)が続き、AdaBoostはRMSE=4442839.041で最も大きな誤差を示しています。
特にテストセットにおいても、GBDTモデルはR²=0.901、RMSE=3221632.175という高い予測性能を維持し、選手の市場価値を予測する上で非常に高い精度と信頼性を示しています。GBDTモデルが市場価値の予測において他のモデルよりも優れていることを示しています。
モデルの解釈
この研究では、GBDTを用いて、SHAPのビースウォームプロットと特徴重要度を分析し、選手の市場価値に最も影響を与える特徴を特定しています。
その結果、特に重要な要素として「ボールコントロール」「リアクション」「ショートパス」「スプリントスピード」「フィニッシュ」「インターセプト」「ドリブル」「スライディングタックル」「加速」の9つの特徴が挙げられています。これらの要素が、選手の市場価値を予測する上で大きな影響を持つことが示されています。
さらに、Ángel Fabián選手、Ivan Perišic選手の市場価値予測を詳細に調査したところ、下図のように、GBDTモデルが実際の状況と比べても、正確であることが確認されています。
例えば、Ángel Fabián選手の予測市場価値は、Box-Cox変換後で約600万ユーロとなり、実際の市場価値である531万ユーロに非常に近い結果となっています。Ivan Perišic選手も予測市場価値は約250万ユーロで、実際の275万ユーロに近い値になっています。
これらの特徴に対する「部分依存プロット(PDP)」の分析結果は下図に示されています。PDPでは、ボールコントロールやリアクション、スプリントスピードといった特徴が、選手の市場価値の上昇に伴い予測精度に大きな影響を与えていることが確認されています。これにより、これらの特徴が選手の市場評価に直結する重要な要素であることが示されています。
まとめ
この研究では、選手のパフォーマンスに影響を与える最も重要な要素に焦点を当てたアンサンブル機械学習モデルを構築しています。従来の統計手法や機械学習モデルでは、予測精度に限界があり、各特徴がどのように予測に寄与しているのかを詳細に理解するのは困難でしたが、この研究によって改善しています。
SoFIFAという公開データを活用し、高精度なアンサンブル機械学習モデルを開発しています。Borutaアルゴリズムで選ばれた特徴に基づき、SHAPを使用してモデル内部の構造を明らかにし、各特徴の重要性を解明しています。選手の市場価値や移籍の際に、これらの特徴がどのように影響を与えるかを評価することは、クラブ経営者にとって非常に重要な情報となります。
また、スキル、フィットネス、認知の3つの主要な特商に基づいて選手を評価しています。スキルの面では、ボールコントロール、ショートパス、フィニッシュなどが重要な要素であることがわかり、フィットネスではスプリントスピードと加速が大きな影響を与えることがわかっています。さらに、認知では、リアクションが最も影響力のある特徴として特定されています。クラブは選手評価や移籍において、より正確な意思決定を行うための重要な手がかりを得ることができます。
市場価値の予測では、モデルが非常に正確な結果を示し、実際の価値とほぼ一致する結果が得られることもわかっています。ただし、予測精度向上のためにBox-Cox変換を使用しており、そのため予測結果を解釈する際には若干の複雑さが伴います。予測値を元の市場価値に戻すには逆変換を行う必要があり、注意が必要です。
この研究は機械学習を用いた選手評価の新たな可能性を示し、特にGBDT(Gradient Boosting Decision Tree)モデルが高い予測精度を持つことが確認されています。スキル、フィットネス、認知といった重要な特徴から選手の市場価値を評価する方法が明らかにされ、今後の活用が期待されます。
この記事に関するカテゴリー