
深入了解 ChatGPT 的数学功能
三个要点
✔️ 建议建立新的数据集 GHOSTS,以测试 LLM 的数学能力。
✔️ 介绍如何将 LLM 融入数学家的工作。
✔️ 比较新旧升级和提高 GPT-4 性能的实验。
Mathematical Capabilities of ChatGPT
written by Simon Frieder, Luca Pinchetti, Alexis Chevalier, Ryan-Rhys Griffiths, Tommaso Salvatori, Thomas Lukasiewicz, Philipp Christian Petersen, Julius Berner
(Submitted on 31 Jan 2023 (v1), last revised 20 Jul 2023 (this version, v2))
Comments: Added further evaluations on another ChatGPT version and on GPT-4. The GHOSTS and miniGHOSTS datasets are available at this https URL
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本文研究了两种语言模型(ChatGPT 和 GPT-4)的数学性能。采用一种新的方法,在公开的和独立创建的数据集上对它们进行了测试。测试的重点是用自然语言表达的数学问题,而不是通常的正规数学数据库。
研究人员推出了两个新的数据集,分别称为 GHOSTS 和 miniGHOSTS,以解决目前的数据集主要集中在初等数学或只覆盖很小的领域的问题。这些数据集涵盖了研究生水平的数学,旨在区分数学的不同方面。
这些数据集模仿了数学家的日常活动,以评估 ChatGPT 和 GPT-4 对专业数学家的有用性。这些模型以一系列详细的性能指标为基准,并在理解高等数学方面进行了最详细的评估工作。
结果表明,ChatGPT 可作为数学搜索引擎,是非常有用的数学助手。另一方面,GPT-4 被认为适用于本科生水平的数学,但在研究生水平的难度上并不成功。尽管媒体对他们的解题能力给予了积极的报道,但总体数学成绩却低于研究生的预期。因此,建议学生应借鉴普通同事的学习经验,以通过研究生水平的数学考试。
导言
ChatGPT 是一款著名的问答式对话系统,在各种测试中表现出色,包括医学执照考试、心理学智商测试和运营管理考试 GPT-4 的表现也优于 ChatGPT。
在本文中,我们将介绍一个新的数据集 GHOSTS,并详细分析 ChatGPT 的数学特征。我们还将在一个名为 miniGHOSTS 的较小数据集上对 GPT-4 进行评估。这将检验这些模型对数学理解的贡献程度。
相关研究
ChatGPT 可以用自然语言进行数学推理,从而与传统技术竞争:自 1959 年以来,人们一直在研究数学推理自动化的方法,但最近人们开始使用监督学习和大规模语言模型(LLMs)来学习自然语言中的数学。已开发出越来越多的方法。
现代数学符号编码方法被认为是停滞不前的,而像 ChatGPT 这样的模型则有望直接进行数学推论并展示高级数学理解。与其他先进模型和数据集的比较表明,ChatGPT 有能力承担高级数学任务。
本研究引入了一个新的数据集 GHOSTS,以评估 ChatGPT 对数学推理的理解程度。与其他模型相比,ChatGPT 有可能表现出较高的数学理解能力。然而,其他研究表明,它仍然需要提高数学理解能力。
数据集
该数据集名为 GHOSTS,涵盖一系列数学难度等级和问题类型。具体子数据集包括 Grad-Text、Holes-in-Proofs、Olympiad - Problem Solving、Symbolic Integral、MATH、Aspects of Search Engines 和 Theorem Proof Completion。
- Grad-Text(论文文本):
论文文本数据集。重点关注与数学相关的主题和话题。可能包含数学毕业生撰写的论文文档。 - Holes-in-Proofs:
一个关于数学证明的数据集,特别关注证明中存在的不完整性和缺陷。这可能包括证明的完整性、逻辑谬误等。 - Olympiad-Problem Solving (Mathematical Olympiad Problem Solving):
数学奥林匹克竞赛中提出的问题及其答案和解决方案的数据集。其中包含用于衡量数学解题技巧的问题。 - 符号积分:
数学中的符号积分数据集。它包含不同数学函数和表达式的积分,侧重于符号计算任务。 - MATH:
有关常见数学文本和问题的综合数据集。可能包含各种数学学科和主题的问题和信息。 - 搜索引擎的各个方面:
数据集侧重于与数学有关的搜索引擎的运行和功能。它包含有关检索数学信息的查询和搜索结果的数据。 - 定理证明的完成:
一个关于数学定理和命题的数据集,重点关注完成一个从不连贯到完整的证明的任务。它提供了了解数学证明的结构和逻辑的信息。
研究人员使用由数学专家手动标注的数据点来评估提示和模型输出结果。数据集的创建需要研究人员的数学洞察力和详细的数学评估。数据集的创建耗时数百小时,共包含 1636 条提示。
这项研究旨在确定 ChatGPT 在数学推理方面的能力。创建该数据集的目的是对数学的不同方面进行全面评估,提供超出现有数据集的丰富信息。
实验结果
研究表明,ChatGPT 在大学数学课上的表现一般,但在处理高难度练习和高级问题(如数学奥林匹克竞赛中的问题)时却很吃力。不过,他们在需要陈述基本数学事实的任务中表现一般。
2023 年 1 月 9 日版 ChatGPT 的平均评分为 3.20,在证明型问题和复杂的符号计算方面尤其吃力。不过,它在问题上下文识别和符号匹配方面表现出色,在简单的数学任务中得分很高。
另一方面,GPT-4 的表现优于 ChatGPT,在 miniGHOSTS 数据集上的平均成绩为 3.50。这表明 GPT-4 能够处理更高级的数学问题。
图 1 显示了不同模型的评分。其中,GPT-4 的平均评分为 4.15,优于其他模型。
这个桑基图直观地显示了各种模型的评估过程。从上到下的流程显示了从 2023 年 1 月 9 日的 ChatGPT 到 2023 年 1 月 30 日的 ChatGPT 再到 GPT-4 的评级演变过程。根据每个模型的评级,桑基图用不同宽度的带子表示,显示每个评级的百分比(5 分为较好分数)。是。
另一方面,GPT-4 的满分(5 分)显著提高。通过这幅图,我们可以一目了然地了解不同模型的演变和性能变化。简而言之,ChatGPT 适用于基础数学任务,但对高级数学问题的处理能力有限;GPT-4 是其进化版本,能够处理更多的难题,并提高了整体数学能力。
结论
ChatGPT 在数学任务方面还不够完美,但有可能提供令人惊喜的答案。特别要指出的是,它在处理高等数学时很吃力。
在 miniGHOSTS 数据集上,GPT-4 的表现优于 ChatGPT,并有望在数学函数方面有所改进。总的来说,ChatGPT 在特定的数学任务上并不出众,与专业模型存在差异,但在搜索数学对象方面具有灵活性。
重要的一点是,ChatGPT 可以整合为数学助手,根据特定信息加速数学搜索任务。不过,用户必须具备一定的数学知识,才能准确识别数学对象。
该研究指出,GHOSTS 数据集作为数学基准仍显不足,并鼓励未来的研究人员深化和改进他们的理解。最终目标是将 GPT-4 评估扩展到完整的 GHOSTS 数据集,并建立一个数学基准。
与本文相关的类别