针对体育博彩中足球比赛预测挑战的机器学习模型

体育分析 29/01/2025

三个要点
✔️ 国外赌博合法化导致足球数据收集的演变
✔️ 机器学习模型预测比赛结果的有效性
✔️ 超参数和特征选择对提高预测准确性的重要性

The Evolution of Football Betting- A Machine Learning Approach to Match Outcome Forecasting and Bookmaker Odds Estimation
written by Purnachandra Mandadapu
(Submitted on 24 Mar 2024)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

摘要

职业足球自 19 世纪在英格兰诞生以来，一直与赌博密切相关。赌博最初只是一种有趣的观赛方式，随着时间的推移，已成为影响整个体育运动的一个重要因素。

随后，英国议会于 1960 年颁布了《博彩和赌博法》，将赌博完全合法化。该法案的颁布恰逢足球数据收集日益重要的时期，并引发了世界赌博和足球数据的快速发展。

英国博彩业的合法化促使博彩公司收集更准确、更详细的足球比赛数据，以便设定准确的赔率，在接下来的 60 年里，博彩业和足球数据行业经历了惊人的发展。

曾几何时，人们只关注足球比赛中的传球数和进球数，而如今，博彩运营商和足球俱乐部正在利用这些数据，将其转化为一个利润丰厚的产业。体育博彩服务（如 Stake.com和BeeBet）近年来发展迅速。

足球数据收集已从手工操作发展成为利用最先进技术的复杂工具。通过多台跟踪球员的高分辨率摄像机、嵌入鞋中的传感器和球中的微芯片，每一个瞬间都被详细记录下来，比赛中的每一个场景都可以被详细分析。

此外，人工智能（AI），尤其是机器学习（ML）的引入，极大地提高了足球数据分析能力。大量研究表明，基于 ML 的分析在优化球员部署和球队战略、改善训练和预测比赛结果方面非常有效。

本文建立了一个模型，用于准确预测英超联赛的比赛结果。它利用历史足球数据，探索了使用 ML 模型预测比赛结果的最佳方法。

此外，根据这些模型生成的预测结果计算 1×2 投注赔率的方法正在被复制，以尝试从一个新的角度计算赔率。这些赔率被用作评估模型预测的基础，以及从多个角度分析影响比赛结果的因素的工具。

赔率和 1x2 投注

在体育博彩中，博彩公司在设定体育赛事结果赔率方面发挥着重要作用。博彩公司利用复杂的算法和专家意见相结合来确定赔率，这样无论结果如何，他们都能适当盈利。

赔率是根据特定结果发生的概率设定的。例如，如果认为 A 队比 B 队更强，那么 A 队获胜的概率就会更低。

本文重点介绍基本投注策略"1x2"。1 "代表主队获胜， "X "代表平局，"2 "代表客队获胜，"1x2 "是投注主队获胜、客队获胜或平局的最简单方法。

在许多足球联赛中，每支球队都会与另一支球队交手两次，一次在主场，一次在客场。这些对决的地点对预测有很大影响，众所周知，主场比赛的预测结果会更好。

赔率也用大于 1 的数字表示，计算公式如下

P 代表出现特定结果的概率。例如，如果 A 队获胜的概率是 50%（0.5），赔率就是 2.00，这意味着如果 A 队获胜，投注额将翻倍。

根据博彩公司的不同，赔率也会有所不同，并受到算法和专家主观评估的影响。赔率还可能因球员伤病或赛前不久球队组成变化等因素而波动。一旦开始投注，赔率就会固定下来，不会波动。

然而，由于庄家总是以盈利为目的，一些庄家可能会设置不利于投注者的赔率或限制投注金额。这种方法自然会受到批评。

数据集

该数据集使用了 2021-2022 和 2022-2023 两个赛季的详细英超联赛统计数据。

通过网络搜索，收集了参加 2021-22 和 2022-2023 赛季的所有球队的比赛数据。从每支球队的网页中提取必要的统计数据，然后将其整理并编入数据库。该数据库是本文分析的基础。

收集的数据涵盖每支球队在 380 场英超联赛中的统计数据，分为九个类别，包括进球、射门、守门和传球。每场比赛的数据都会合并成一个数据集，其中包含主队和客队的信息。

最后，我们构建了一个 1520 行 52 列的表格，其中包含 34 项统计数据和补充信息。该数据集可供人工智能分析，用于预测比赛结果和发现模式。

在开始机器学习之前，正确处理数据也很重要。首先，必须对原始数据进行整理，使其适合分析。缺失数据可通过嵌入默认值、使用平均值和中位值或使用 K 近邻（KNN）和回归分析等算法进行预测来补充。数据中的噪声（不必要的变化和误差）也可通过分选、回归和聚类等方法进行处理。

在整合不同来源的数据时必须小心谨慎，因为可能会出现数据冗余。规范化、汇总和概括是为了将数据转换成更易于分析的格式。

此外，数据需要编码成数字格式，才能使 ML 算法正常运行。例如，在本文中，与 "道路 "相关的数据被转换成数值，1 表示主场，0 表示客场，而与 "对手 "和 "球队 "相关的数据则被替换为相应球队名称的整数。此外，表示比赛结果的 "结果 "数据被编码为 1（W）表示获胜，0（D）表示平局，2（L）表示失败。这一过程使数据与 1x2 下注格式兼容。

删除了 "比赛报告"、"备注"、"裁判"、"队长 "和 "信息 "等与分析无直接关系的栏目。此外，2022-2023 赛季最后一周的比赛数据已被每支球队的赛季平均值所取代。这确保了数据的统一性，并提高了分析的准确性。

实验概述

当前的实验评估了不同 ML 模型的性能，并寻找最佳预测模型。根据数据的复杂性选择适当的特征和超参数非常重要。在此，我们对随机森林和 KNNs 等多个 ML 模型进行了比较，以评估哪个模型能最准确地预测结果。

ML 模型处理的 "特征 "是从数据中提取的数据模式和属性。了解这些特征的重要性以及每个模型如何评估这些特征，对于提高预测准确性非常重要。选择合适的训练数据对于足球比赛历史等时间序列数据尤为重要。当前的数据集由 2021-2022 和 2022-2023 两个赛季的英超比赛数据组成，并以不同的方式对其进行了拆分和分析。

还使用了 Python。这是因为 Python 结构简单，语法直观，易于创建可重复的分析程序。之所以选择 Jupyter Notebook 作为开发环境，是因为它能够整合代码、可视化和文本，以进行交互式数据探索。

初始数据集包含许多匹配属性，但为了让 ML 算法能高效处理这些属性，特征的数量有所减少。我们使用递归特征消除法（RFE）来缩小最佳特征的范围。这种方法首先使用所有特征，然后逐步去除不太重要的特征，从而找到最佳特征集。

超参数 "在调整 ML 模型中发挥着重要作用。这些参数控制模型的学习过程，并在训练前设定。使用网格搜索和随机搜索等方法尝试各种超参数组合，以选择最佳设置。通过这些方法，可以最大限度地提高 ML 模型的性能。

此外，准确度、精确度、召回率和 F-1 分数也是评价模型的主要指标。利用这些评价指标，分析每个模型的预测准确性，并选出最佳模型。

随机森林

本文使用不同的机器学习（ML）模型来预测足球比赛的结果，并评估其有效性。本节将探讨 "随机森林 "的结果。

首先，根据不同的数据分割对模型的性能进行评估。结果如下表所示：在对两个赛季的数据（2 Seasons of Data）进行测试时，随机森林的准确率达到了 64.95%，每个类别（胜、平、负）的精确率和召回率也相对较高。

然而，在某些类别中发现了分类错误，而且对某些结果的偏倚也很明显：当只使用一个赛季的数据（1 个赛季的数据）进行测试时，准确率提高到 67.33%，但偏倚仍然存在。此外，当使用最近的比赛数据（10 个比赛周数据）进行预测时，准确率下降到 47.73%，这表明仅使用最近的数据进行预测存在局限性。

接下来，针对所使用的不同特征（模型用于预测的数据类型）对结果进行分析。结果如下表所示。包含所有特征的第一个模型（所有特征子集）显示出均衡的结果，准确率为 68%。

使用特征选择技术 RFE，准确率略微提高到 69%，表明选择重要特征是有用的。然而，当根据特征与目标变量的相关性来选择特征时，准确率下降到 62%，这揭示了仅依靠相关性进行特征选择的局限性。

此外，还测试了模型对足球比赛结果的预测能力。结果如下表所示。从表中可以看出，模型对某些结果显示出强烈的倾向性。例如，在预测涉及利兹联队和托特纳姆热刺队的比赛的某些结果时存在明显偏差，这表明模型对这些比赛的预测具有很高的可靠性。

相比之下，水晶宫和诺丁汉疡斯特之间的比赛则倾向于预测平局，这表明该模型如何捕捉到足球预测中的不确定性和可变性。

虽然这些结果表明随机森林能有效预测足球比赛的结果，但也表明该模型存在局限性和改进空间。对特定比赛的预测偏差以及数据选择方法对准确性的影响需要在今后的研究中进一步探讨。

支持向量机

本节将探讨使用支持向量机 (SVM) 模型预测足球比赛结果的结果。结果如下表所示。

首先，当使用两个赛季的数据（2 Seasons of Data）时，SVM 模型的准确率达到了67%。它在预测 "客胜 "方面表现出了特别的优势，但在预测 "平局 "方面却遇到了问题，在 92 个案例中只正确预测了 30 个；当使用一个赛季的数据（一个赛季的数据）时，准确率提高到了 72.67%，但在预测平局方面仍然很吃力。然而，它仍然难以预测平局。此外，当使用最近的比赛数据（10 个比赛周的数据）时，准确率大幅下降至 45%，表明预测非常困难。这可以归因于数据集较小以及比赛结果的可变性增加。

其次，当使用所有特征时，SVM 模型显示出72%的准确率，但仍难以预测平局。

当使用特征选择方法 RFE 时，准确率略微下降到 70%，但对提高平局预测效果没有显著影响。当只使用高度相关的特征时，准确率下降到 66.67%，这表明高度相关的特征并不一定能有效预测平局。

总体而言，SVM 模型表现良好，但在预测平局方面始终存在挑战。结果表明，平局可能存在固有的复杂性，而且一些重要特征仍被忽视。为了解决这个问题，我们认为有必要进一步完善抽签预测相关特征的选择和工程设计。

此外，虽然 SVM 模型在某些比赛中显示出较高的准确率，但在利兹联队、托特纳姆热刺队、阿森纳队、狼队、切尔西队和纽卡斯尔联队等比赛中的预测也存在误差。

这凸显了仅靠统计分析预测比赛的局限性。此外，在某些比赛中，模型在选择 "平局 "时往往会犹豫不决，这可能是受比赛动态和球队实力方面微妙差异的影响。

K 最近邻

本节将探讨使用 K-Nearest Neighbour (KNN) 模型预测足球比赛结果的结果。结果如下表所示。

首先，利用两个赛季的数据，KNN 模型的准确率为 61.52%，略低于 SVM 模型的准确率。KNN 模型在预测 "客场获胜 "方面表现出色，在 158 个案例中正确预测了 125 个，但在预测 "平局 "方面表现明显较差，在 92 个案例中仅正确预测了 9 个。在使用一个赛季的数据时也可以看到这种趋势，但准确率略有提高，达到 62.67%。

另一方面，使用最新的匹配数据，KNN 模型的准确率大幅下降至 38.64%。这一下降也反映在所有类别的精确度、召回率和 F1 分数上。