赶上最新的AI论文

预测足球运动员的市场价值,机器学习揭示未来之星

预测足球运动员的市场价值,机器学习揭示未来之星

决策树

三个要点
✔️ 建立机器学习模型预测足球运动员的市场价值
✔️ 利用 Boruta 进行特征选择,利用 SHAP 进行模型解释,实现性能指标的可视化

✔️ GBDT获得最高准确率

Explainable artificial intelligence model for identifying Market Value in Professional Soccer Players
written by Chunyang HuangShaoliang Zhang
(Submitted on 8 Nov 2023 (v1), last revised 23 Nov 2023 (this version, v2))
Comments: 13pages, 6figures

Subjects: Machine Learning (cs.LG); Computers and Society (cs.CY); Computational Finance (q-fin.CP)

code:

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

足球是世界上最受欢迎的运动之一。它的受欢迎程度超越了比赛本身,支持着价值数千亿美元的经济活动。其中,足球运动员的转会市场具有重大的经济影响,是足球产业的重要组成部分。准确评估球员的市场价值对俱乐部管理(包括转会谈判和俱乐部财务战略)具有重要影响。

高价值转会谈判对俱乐部的声誉和财务成功有重大影响,对其准确估价可为俱乐部带来财务稳定和长期成功。这种估值对俱乐部的商业战略也非常重要,因为球员的市场价值对薪酬政策和俱乐部的预算计划有重大影响。

近年来,数据分析和机器学习技术在评估球员市场价值方面也发挥了重要作用,SoFIFA 和Transfermarkt 等在线平台的出现提供了详细的球员表现数据,可用于预测球员市场价值的模型也越来越准确。

Mustafa A. AL-ASADI 和 Sakir Tasdemir 的研究报告称,利用《FIFA 20》足球游戏的比赛数据建立了一个预测球员市场价值的机器学习模型,随机森林的预测准确率最高,超过了传统的统计模型。报告人

同样,在 McHale 和 Holmes 的一项研究中,XGBoost 的准确度明显高于传统统计模型,而在 Yang 等人的一项研究中,随机森林在市场价值评估方面表现更佳。

在此背景下,本研究采用集合机器学习模型和 SHAP(SHapley Additive exPlanations)方法,对影响球员市场价值的因素进行了详细分析。该方法从本地和全球角度提供了易于理解的可视化球员估值,并确定了关键绩效指标。

这项研究为评估足球运动员的市场价值提供了一个新的视角,有望为体育经济的决策过程做出贡献。直观了解优秀足球运动员的价值也是足球爱好者享受足球运动的一个重要因素。

技术

数据集

该网站对球迷熟知的 SoFIFA 上的数据进行了详细分析。该网站包含丰富的球员统计数据,包括球员评级、球队构成、位置和优势脚等。

分析涵盖截至 2023 年 1 月 5 日SoFIFA注册的约 12,000 名球员的数据数据集共包含34 项特征,包括球员姓名、市场价值、薪金、综合评分和潜力。其中 29 项与出场球员有关,5 项是门将特有的特征。下表列出了这些项目。

数据准备阶段包括数据清理,以补齐缺失值,并对出场球员和守门员两个类别进行分类。如下图所示,用于分析的球员市场价值分布广泛,从 1.5 万欧元到 1.9 亿欧元不等。


分布情况显示,许多球员集中在市场价值较低的地区,而少数市场价值较高的球员则对分布情况产生了重大影响。所谓的 "巨星效应 "就体现在这一点上,即一些受欢迎的球员拥有极高的市场价值。

然而,这些高市值球员的数据会影响以业绩为中心的分析,因此,如下图所示,市值超过 2500 万欧元的约 3%球员的数据被排除在外。


由于数据分布偏斜,因此使用盒-盒变换来提高统计模型准确性。如下图所示,这种变换提高了数据的对称性。

特征选择和模型选择

数据集包含 29 个与足球运动员表现相关的特征,但并非所有特征都对模型预测有用。过多的特征不仅会延长计算时间,还会对预测的准确性产生负面影响。

本研究采用 Boruta 算法进行特征选择。该算法是一种基于随机森林的方法,可用于识别重要特征。它的工作原理是将特征的重要性与随机排序的阴影特征进行比较,并在迭代过程中识别出重要特征。在保持计算效率的同时,选出最佳特征。

此外,还对几种学习算法进行了评估,以选出预测玩家市场价值的最佳模型。这些算法包括 Adaboost、LightGBM、GBDT、CatBoost 和 XGBoost。

此外,研究还采用了一种利用集合学习整合多个模型的方法。集合学习结合了多个模型的预测结果,其优点是比单一模型更准确。这种方法有望减少模型偏差和方差,提高整体预测性能。

开发和评估预测模型

在开发预测模型时,首先随机分割数据集,其中 80% 用于训练和验证,其余 20% 用于测试。此外,缺失值补全和特征选择只在训练集上进行,这样测试集就不会受到偏差的影响。

为了最大限度地提高每个集合学习模型的性能,采用了五部分交叉验证法和网格搜索相结合的方法来调整超参数。

评估预测模型时使用了多种机器学习算法,并通过各种指数来衡量其准确性。其中,判定系数(R 平方值,R²)和均方根误差(RMSE)用于从多个方面评估模型的预测性能:R²值表明自变量对因变量变化的解释程度,而 RMSE 则表明预测的误差大小。综合这些指标,可以对模型的准确性进行整体评估。

解释预测模型

机器学习模型被视为黑箱,很难理解哪些因素会影响预测结果,尤其是在评估玩家的市场价值时。为了解决这个问题,Lundberg 和 Lee 提出了 "SHAP(SHapley Additive exPlanations)"方法。这种方法使用基于博弈论的 "夏普利值 "来揭示模型是如何进行预测的,从而直观地解释每个特征的影响。

研究首先使用SHAP 蜂群图和特征重要性度量指标进行全局解释。蜂群图直观地显示了每个特征对预测的影响,并对特征的重要性进行了排序。该图在 y 轴上显示特征,在 x 轴上显示 SHAP 值。红色表示特征值高,蓝色表示特征值低,用户可以一目了然地看到每个特征对预测的积极或消极影响。

下一种局部解释是使用 "SHAP 力图"(SHAP 力图)来预测单个球员的市场价值。力图直观地显示了每个特征对最终预测结果的贡献,并用图形表示了从基准值(预测的平均值)到最终预测值的流程。导致预测结果为正值的特征用红色表示,导致预测结果为负值的特征用蓝色表示,从而让人详细了解哪些因素影响了球员的市场价值以及如何影响的。

此外,为了更好地了解每个特征对预测结果的影响,我们还使用了 "部分依赖图" (PDP)。独立评估其对市场价值的影响程度。它可以进一步阐明某些因素对球员估值的影响。

通过这种方式,SHAP 被设计用来解释模型的内部结构,并对影响球员市场价值的因素提供更详细的了解。

试验

综合设计包括数据收集、特征选择、模型开发、验证、模型评估和解释,如下图所示。

请注意,文章使用了宫本薰的面部图像作为分析对象,但在文中却将其列为 "宫本辉树",这被认为是一个错误,因为市场估值大大低于宫本薰的实际金额

特征选择

在特征选择阶段,29 个与足球运动员表现相关的特征被用于分析。这里使用的 Boruta 利用 Python BorutaShap 软件包自动选择对模型重要的特征。结果,22 个项目被选中。被选中的 22 项特征被评为对球员市场价值影响最大的因素,并在下图中用绿条表示。

具体特征包括加速度、头球准确性、防守意识、视野、凌空射门、冲刺速度、长传、定位球、站桩、运球、任意球准确性、短传、拦截、罚球、终结、反应、球包括控制、耐力、过人、力量、射门能力和滑铲。

这些特点有助于机器学习模型成为准确评估选手表现和市场价值的重要指标。

模型评估

交叉验证分析和测试集评估的结果如下表所示:六种学习算法中表现最好的是梯度提升决策树(GBDT)模型,其=0.889 的值最高。CATBoost。随后,CatBoost 模型以 R²=0.887 位居第二,LightGBM 以R²=0.885 位居第三。随机森林模型和 XGBoost 模型的 R²=0.877 和R²=0.861 值分别为0.877 和0.861,而 AdaBoost 模型的 R²=0.773 值最低


RMSE 结果还显示,GBDT 模型表现最佳,最小 RMSE 为 3221632.175。其次是CatBoost(RMSE=4715039.662)、LightGBM(RMSE=3249280.179)、Random Forest(RMSE=3505068.837)、XGBoost(RMSE=3320149.832)和 AdaBoost,RMSE=4442839.041,误差最大。

特别是在测试集上,GBDT 模型保持了R²=0.901 和RMSE=3221632.175 的高预测性能,显示了在预测球员市场价值方面非常高的准确性和可靠性。表示

模型解读

该研究利用 GBDT分析SHAP蜂窝图和特征重要性,以确定对球员市场价值影响最大的特征。

结果显示,有九项特征尤为重要:控球、反应、短传、冲刺速度、终结、拦截、运球、滑铲和加速度。这些因素已被证明对预测球员的市场价值有重大影响。

此外,对安赫尔-法比安(ÁngelFabián)和伊万-佩里希奇(Ivan Perišic)球员市值预测的详细研究证实,GBDT 模型与实际情况相比是准确的,如下图所示。

例如,安赫尔-法比安的预测市场价值在 Box-Cox 转换后约为 600 万欧元,与 531 万欧元的实际市场价值非常接近;伊万-佩里希奇的预测市场价值也约为 250 万欧元,与 275 万欧元的实际价值接近。伊万-佩里希奇(Ivan Perišic)的预计市值也约为 250 万欧元,接近 275 万欧元的实际价值。

这些特征的部分依赖图(PDP)分析结果如下图所示;PDP 证实,随着球员市场价值的增加,控球、反应和冲刺速度等特征对预测准确性有显著影响。这表明这些特征是与球员市场价值直接相关的重要因素。

摘要

这项研究建立了一个集合机器学习模型,重点关注影响运动员成绩的最重要因素。传统的统计方法和机器学习模型的预测准确率有限,而且很难详细了解每个特征对预测的贡献,但本研究改进了这一点。

利用名为 SoFIFA 的公开数据,我们根据 Boruta 算法选择的特征开发了高精度的集合机器学习模型,并利用 SHAP 揭示了模型的内部结构,阐明了每个特征的重要性。评估这些特征对球员市场价值和转会的影响对于俱乐部管理来说是非常重要的信息。

它还根据三个关键特征对球员进行评估:技能、体能和认知。在技术方面,控球、短传和终结被认为是重要因素,而在体能方面,冲刺速度和加速度被认为具有重要影响。此外,在认知方面,反应被认为是影响最大的特征。俱乐部可以从中获得重要线索,从而在球员评估和转会方面做出更准确的决策。

在预测市场价值时,该模型也能得出非常准确的结果,其结果与实际价值非常接近。不过,为了提高预测的准确性,采用了盒式-考克斯转换,因此在解释预测结果时会有一定的复杂性。值得注意的是,必须进行反变换才能将预测值转换回原始市场价值。

研究显示了利用机器学习,特别是梯度提升决策树(GBDT)模型进行球员评估的新可能性,该模型已被证实具有很高的预测准确性。根据技能、体能和认知等关键特征评估球员市场价值的方法已经确定,有望在未来得到应用。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们