赶上最新的AI论文

SportQA 是一个新的数据集,用于测量大规模语言模型对体育运动的理解能力

SportQA 是一个新的数据集,用于测量大规模语言模型对体育运动的理解能力

大型语言模型

三个要点
✔️ 开发并发布了 SportQA,这是首个评估法学硕士理解体育能力的数据集
✔️ 利用 SportQA 分析法学硕士在理解体育能力方面的优势和劣势

✔️ 展示了 NLP 技术在改进体育新闻和支持运动员方面的新可能性

SportQA: A Benchmark for Sports Understanding in Large Language Models
written by Haotian XiaZhengbang YangYuqing Wang, Rhys Tracy, Yun Zhao, Dongdong Huang, Zezhi Chen, Yan ZhuYuan-fang Wang, Weining Shen
(Submitted on 24 Feb 2024 (v1), last revised 18 Jun 2024 (this version, v2))
Comments: NAACL 2024

Subjects: Computation and Language (cs.CL)

code:

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

在体育世界中,许多因素交织在一起,如各种比赛、规则和战术、个人和团体以及球员个人的特点。因此,要建立一个了解并熟悉体育运动的大规模语言模型(LLM)是非常困难的

虽然 LLM 在自然语言理解、信息提取和问题解答等任务中表现出色,但其在体育等涉及复杂数据和策略的领域的应用还远远不能令人满意。

例如,如果您是体育迷,您可能会问:"2022 年哪支球队将赢得国际足联世界杯?你就能很快回答出 "2022 年哪支球队赢得了国际足联世界杯?"这个问题。但为什么在排球比赛中,初学者多用花球发球,而高级运动员少用花球发球?"回答 "为什么初学者多用花球发球,而高级运动员少用花球发球?"这个问题需要专业知识。

为了评估法学硕士在体育领域的能力,需要有一个针对体育运动的数据集,其中包括这 类一般性问题以及需要深入分析的问题。

过去曾建立过BIG-bench 和 LiveQA 等数据集来评估 LLM 在体育方面的能力。然而,这些数据集并不能充分解决体育知识面广、背景复杂的问题。质量也是一个挑战,有些问题与事实不符,例如 "汤姆-布雷迪(足球运动员)在一场足球比赛中触地得分"。

为了应对这一挑战,该研究正在建立一个名为 "SportQA "的新数据集,其中包含 7 万多个问题,用于准确评估法学硕士在体育领域的能力,包括从体育基础知识到需要复杂推理的问题。它涵盖了从体育基础知识到需要复杂推理的各种问题,以便准确评估法学硕士在体育领域的能力。

体育领域的法律硕士能力有不同的难度级别。本文将其分为三个级别(1 级至3 级)。

第 1 级有 21,385 道测试事实和历史知识的题目。奥运奖牌获得者等体育爱好者可以快速回答这些问题。

第 2 级包括 45 685 道要求了解规则和战术的题目。例如,这些问题要求了解足球越位的知识。

第 3 级共有 3522 道题目,要求分析复杂的情景。这些问题是为具有多年经验的专业人士设计的。例如,本题要求对排球比赛中如何突破三名拦网手做出高级判断

1 级和 2 级试题为多项选择题,只有一个合适的选项;3 级试题为多项选择题,有多个合适的选项,试题难度依次增加。

本文使用该 SportQA 评估了包括 Llama2、PaLM2、GPT-3.5 和 GPT-4 在内的最先进 LLM 的性能。47.14% 的正确回答率。

不过,这一三级正确率比人类专家的正确率低约 45%,这也表明在这一领域仍有改进的余地。

SportQA 数据集

SportQA 采用自动和人工相结合的方法构建:一级和二级问题是自动生成的模板,由体育专家修改,涵盖一系列体育知识;三级问题全部由体育专家人工创建,需要进行实际分析第 3 级问题全部由体育专家手工编制,需要进行实际分析。

为确保数据集的准确性和一致性,每个问题都由 36 名美国和中国学生运动员进行了仔细研究。他们至少有八年的运动经验,对规则和策略有很好的理解。在招募学生运动员时,每个候选人都要接受针对具体水平的例题面试和培训,然后才被正式分配到标注任务中。

1 级

第 1 级问题旨在评估法律硕士对体育基本知识的了解程度。这些试题主要询问事实和历史信息,包括 21,385 道多项选择题,均来自一系列质量保证数据集。这些数据集包括各种格式,如真/假、多项选择和自由回答,并已标准化为选择格式。

例如,许多 "琐事 QA"、"QUASAR "和 "火锅 QA "数据集都有开放式问题,因此将其转换为选择格式。此外,由于 KQA Pro 中的问题原本是选择题格式,因此在检查了内容的准确性和相关性后,以原始格式使用了这些问题。

如上所述,第 1 级问题是通过自动和人工相结合的方法创建的。

2 级

第 2 级问题旨在评估法律硕士对某项运动的规则和战术的理解程度,以及他们对该运动的广泛历史和事实知识

维基百科收集了 35 个不同运动项目的信息。其中包括28 个奥林匹克运动项目和 4 个将在 2024 年巴黎奥运会上首次采用的新运动项目(破冰、运动攀岩、滑板和冲浪),以及棒球和美式足球等流行运动项目,尽管它们不是奥林匹克运动项目

如上所述,第 2 级问题也是通过自动和人工相结合的方法创建的。所有问题均审查小组检查是否与原始资料一致,并核实是否基于最新信息。此外,过时或相关性较低的问题也会被删除,以确保一致性。

3 级

第 3 级问题是 SportQA 中最具挑战性的问题。它包含 3522 道情景题,涉及六大运动项目:足球、篮球、排球、网球、乒乓球和美式足球。

这些问题不是测试简单的知识,而是再现现实生活中的体育场景,评估法律硕士的理解和分析能力有多深。试题为多项选择题,有一至四个正确答案。

如上所述,3 级试题不是自动生成的,而是人工创建的。之所以要手工编制,是因为编制这种难度的问题需要相关运动的专业知识。这不仅需要肤浅的知识,还需要实际体验过该运动并熟悉其策略和实际情况的人的深入见解。

首先,请各运动项目的教练员就应评估哪些角度提出建议。教练们丰富的执教经验可确保每个问题的设计都有效实用。然后,审查小组根据教练提出的评估角度,并借鉴他们的体育专业知识和自身的运动经验,编制问题。

试验

SportQA 基准用于评估主要 LLM(如 Llama2-13b-chat、PaLM-bis-chat、GPT-3.5-turbo 和 GPT-4)的性能。每个实验都进行了多次,并显示了最佳结果。

Level-1 从测试集中随机抽取了 2,000 个问题;Level-2 根据每个运动项目的问题数采用了不同的抽样策略,问题数少于 200 个的运动项目占样本总数的 30%,问题数为 200-800 个的运动项目占 15%,问题数为 800-1500 个的运动项目占 5%、2,500-10,000题的运动项目占 2.5%,10,000题及以上的运动项目占 1.5%,总共选取 2,243 道题作为样本;对于三级运动项目,根据每个运动项目的题量,足球、篮球和网球占 20%,排球占 30%,乒乓球占 50%,乒乓球和网球占 50%、排球乒乓球为 30%,乒乓球和美式足球为 50%,共抽取 980道题。

我们还主要使用思维链(CoT)提示方法来评估我们的模型,这是一种逐步推理方法,已被证明对复杂的体育理解任务特别有效。此外,我们还采用了 "零镜头 "CoT 和 "少镜头 "标准提示法(SP)进行比较。

此外,还将模型的性能与人类的性能进行了比较。除了评估模型的性能外,还招募未参加审查的学生运动员,要求他们手动回答一组三级测试。根据运动专家的能力,将模型的性能与人类的性能进行比较。

不同模型在三个级别上的性能比较见下表。

在所有任务中,GPT-4 的性能始终优于其他模型,与其他模型相比,平均性能差距超过 15%。研究还发现,CoT 在提示形式方面也很有效。

以往的研究(Wei 等人,2022 年)证实了 "Few-shot "渐进式提示能提高模型性能的趋势,尤其是在需要复杂推理的任务中,本实验也证实了这一点。

GPT-4 在第 1 级的准确率最高,随着第 2 级和第 3 级的进展,准确率逐渐下降。这是因为每个级别的任务都越来越复杂,而处理复杂场景的第 3 级对模型的挑战最大。

不过,虽然 GPT-4 显示出整体性能优越,但 Level-3 显示,人类专家在正确回答方面比 LLM 高出约 30% 至 65%。与人类在体育方面的知识和理解深度相比,这表明 LLM 还有改进的余地。

误差分析

从每个级别随机抽取 20 个问题,并进行人工错误分析。我们要求模型解释自己做出决定的原因,并审查他们的解释,以确定出现了哪些错误,并探究错误背后的原因。

在一级和二级中,"概念理解不足 "是最常见的错误,占总数的 40%。第三级由于试题更加复杂,错误率也更高,其中"概念理解错误 "是最常见的错误,占总数的 55%。

例如,无法区分 "公断人 "和 "仲裁人 "就是这种错误的表现。这被认为是模型未能正确理解复杂场景中涉及的概念。

摘要

本文构建了一个新的数据集 SportQA,以评估法学硕士对体育的理解。以往的数据集侧重于有关基本事实和体育相关基础知识的问题,而 SportQA 则涵盖了历史事实、规则和策略,以及寻求高级体育知识和见解的问题,如基于情景的推理。

评估结果表明,GPT-4 在基本体育知识和规则理解方面表现良好,但在复杂场景推理方面仍面临挑战,与人类专家的知识水平相差甚远。

事实证明,自然语言处理(NLP)和人工智能的进一步发展对于法律硕士深入了解体育这样一个多样且不断变化的领域十分必要。

预计 SportQA 将在今后的研究中得到广泛应用,成为衡量和改进体育运动中 LLM 理解能力的重要工具。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们