越南高中化学试题中大规模语言模型的局限性和可能性

大型语言模型 08/01/2025

三个要点
✔️ 全面评估越南高中化学教育中最先进的语言模型 ChatGPT 和 BingChat 的表现
✔️ 与越南学生比较分析 ChatGPT 和 BingChat 的表现
✔️ 讨论在越南化学教育领域实施大规模语言模型的潜在效益和挑战

LLMs' Capabilities at the High School Level in Chemistry: Cases of ChatGPT and Microsoft Bing Chat
written by Dao Xuan-Quy, Le Ngoc-Bich ,Vo The-Duy ,Ngo Bac-Bien ,Phan Xuan-Dung
(Submitted on 20 Jun 2023)
Comments: Published on ChemRxiv.
Subjects: Chemical Education

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

人工智能（AI）在教育领域发挥着越来越重要的作用，它可以提升学生的学习体验，改进教学实践，由人工智能驱动的教育工具可以提供个性化的学习体验，实现常规任务自动化，并提供实时反馈和评估。它们可�

根据一项研究，人工智能被广泛应用于行政、教学和学习领域，并以各种形式被采用，从计算机技术到仿人机器人和聊天机器人。人工智能可以让教师更高效地完成管理任务，根据学生的需要定制教育内容，满足学生的需求，提高学习质量�

另一项研究提出了一种利用讲师的声音和面孔自动创建视频讲座的方法，利用文本到语音和语音驱动面孔技术，减轻在线学习的负担，提高学习者的参与度。这样既节省了录制时间和精力，又便于复习。实验结果表明了这种方法的有效性。一些倡议提出了一个在线学习平台，该平台配备了一个越南语虚拟助手，以协助讲师授课和评估学习者。课程内容以幻灯片的形式提供，结合了合成音频和教师的面孔，无需视频录制即可轻松编辑。

大规模语言模型是一种能够处理和分析海量自然语言数据的人工智能技术。这些模型在语言翻译、内容创建和教育等不同应用领域展现出巨大潜力：2018 年谷歌推出的 BERT、2019 年 Facebook 推出的 RoBERTa、同年谷歌研究人员推出的 T5 以及OpenAI 在 2020 年推出的 GPT-3，每个模型都各具特色，并在自然语言处理任务中表现出了优异的成绩。

化学数据集对于学习大规模语言模型以理解和预测各种分子特性至关重要。这对于药物发现、材料设计和许多其他应用都至关重要。大规模语言模型有助于从广阔的化学空间中高精度、高速度地识别有潜力的分子。随着人们对大规模化学语言模型的兴趣与日俱增，越来越需要大型、多样化和高质量的化学数据集，以提供足够的化学和结构信息，从而有效地训练这些模型。例如，MoLFormer 使用 1.1 亿个无标签分子的 SMILES 序列进行了训练，结果优于现有基线。

随着大规模语言模式的发展，其在教育领域的潜力和挑战也越来越清晰。然而，在越南等以越南语为主要语言的国家，必须全面评估他们的能力，以便在教育中有效实施这些模型。特别是在高中化学领域，迄今为止还没有这方面的研究，也很少有数据集来评估高中化学中的大规模语言模式。

为了填补这一空白，我们开发了 VNHSGE 数据集，其中包含越南全国考试九个科目的数据。该数据集包含 19,000 道选择题和 300 篇文学作品，同时提供文本和图像。本文深入探讨了未来大规模语言模型将给教育领域及其未来带来的变化。

数据集

本文使用的数据集包括从越南教育与培训部、高中和教师处获得的正式试题和模拟试题。这些试题收集自 2019 年至 2023 年期间举行的考试，涵盖数学、文学、英语、物理、化学、生物、历史、地理和公民教育等多个学科。试题分为四个难度等级：知识（简单）、理解（中等）、应用（困难）和高度应用（非常困难），为评估学生的能力和专业知识提供了一个全面的基准。

本期将以越南高中毕业会考中的化学考试为基准。在越南，化学毕业考试是每年高中毕业考试的重要组成部分。该考试被归类为自然科学的一部分，学生有 40 道题和 50 分钟的解题时间。

VNHSGE 数据集是在这次高中化学考试的基础上建立的，包含不同难度的问题，从基础知识到需要分析和整合信息的复杂问题。为了评估大规模语言模型的性能，如前所述，这些问题被分为四个级别：知识、理解、应用和高度应用。通过这种方法，可以全面了解大规模语言模型在解决化学教育中一系列问题方面的能力和局限性。然后，它由 50 套试题中的共计 2,000 道选择题组成。这些试题涉及广泛的化学领域，包括冶金、碱金属、碱土金属、铝、铁、无机化学合成、酯、脂、胺、氨基酸、蛋白质、碳水化合物、聚合物和高分子材料。考试评估有机化学内容的知识，包括合成、电解、氮磷化学、碳氢化合物、醇和酚。

2019-2022年越南学生分数分布图是显示考生在某一特定科目中分数的一种方式。它们通常以图表的形式呈现，一个坐标轴表示分数，另一个坐标轴表示获得该分数的考生人数。下图是 2022 年全国高中毕业会考化学考试成绩分析。

参加化学考试的 327,370 名考生的平均分为 6.7 分，中位数为 7.0 分。最常见的分数是 8.0 分，43 名考生（0.01%）低于 1 分，49 900 名考生（15.24%）低于平均分。越南教育部每年都会公布分数分布情况，并以图表形式显示每个科目的分数分布情况。分数分布用于对考生的水平和能力进行分类，并根据预先确定的标准对其进行评估。它还用于根据试题难度评估考试质量。本文收集了 2019-2022 年的分数分布。大规模语言模型的结果可以与越南学生的结果进行比较，以评估他们在大规模语言模型中的能力。

在 VNHSGE数据集中，公式、方程式和图表都被转换为文本格式，以适应 BERT 和 GPT 等语言模型。文件，这样没有编程知识的人也可以评估大型语言模型的性能。不过，符号、表格和图像也可以转换。VNHSGE 数据集也适用于 JSON 格式，以确保与多个大型语言模型兼容，并帮助开发更可靠的语言模型。JSON 格式可有效处理文本中的语法和内容相关信息，因此非常适合作为大型语言模型的输入数据。JSON 是大规模语言模型的理想输入数据。它的灵活性和可扩展性使其能够存储各种文本数据，包括数学公式、方程式、表格和图像。

下面是一些越南语问题。ChatGPT 和 BingChat 用于将问题和答案翻译成英文。第一个问题属于知识（EASY）级别，不需要推理就能找到答案。

下列问题属于理解（中级）水平，需要进行推理才能得出答案。

下一个问题属于应用（困难）级别，需要通过推理找到解决方案。

最后，高应用（非常难）层次的问题需要深入推理才能解决。

试验

ChatGPT 和 BingChat 的性能使用 VNHSGE 数据集进行评估，该数据集包括越南教育和培训部提供的 2019 年至 2023 年的五次模拟测试（共 200 道选择题）。本文介绍了针对该子数据集对 ChatGPT（2 月 13 日版本）和 BingChat（3 月 28 日版本）的评估结果。

本节展示了上述样本中 ChatGPT 和 BingChat 的答案。首先，对于知识（简单）级别的问题，ChatGPT 会输出正确答案，而 BingChat 只提供部分支持；BingChat 不会输出解决方案，但会在解决问题的方向上提供支持。

从下面的问题可以看出，ChatGPT 和 BingChat 无法找到正确答案，尽管这是一个常见的化学反应式。

应用（困难）级别的问题需要综合知识才能得出正确答案，而 ChatGPT 和 BingChat 都无法找到解决方案。

对于需要深度推理的问题，ChatGPT 和 BingChat 都无法提供有用的信息，而且它们的方法也不完全合理。

问题的顺序也与难易程度有关。问题分类如下。问题 1-20 属于知识层面，问题 21-30 属于理解层面，问题 31-40 属于应用和高度应用层面。下表显示了 ChatGPT 和 BingChat 根据问题顺序得出的结果。

此外，它还引入了两个值：Max 和 Min，其中 Max 代表 ChatGPT 和 BingChat 的最佳情况，即模型提供正确答案的能力。而 Min 则代表最差情况，即模型提供错误答案的能力（1-Min）。

这些最大值和最小值可用于评估大型语言模型在 VNHSGE 数据集上的最佳和最差表现。例如，如果 ChatGPT 提供了问题 "x "的正确答案，而 BingChat 提供了错误答案，则 Max 为真（值为 "1"），Min 为假（值为 "0"）。由于问题的顺序与问题的难易程度相关联，因此可以根据问题的顺序评估答案的准确性，并根据问题的难易程度确定大规模语言模型的能力�

根据下图显示的五年平均结果，ChatGPT 在第 1-21 题的正确率超过 50%。然而，在第 20-40 题中，ChatGPT 的正确率大幅下降。相比之下，BingChat、Min 和 Max 分别在问题 1-24、1-16 和 1-27 中提供了 50%以上的正确答案。

然而，从第 24 题开始，Min 的正确回答率几乎为零：对 ChatGPT 和 BingChat 提供的答案的准确性分析表明，这两个模型都只能回答知识和理解层面的问题，在应用和高应用层面的问题上都很吃力。

下表还显示了大型语言模型的性能及其每年的平均值：ChatGPT 在 2021 年取得了 62.5 的最高分，在 2019 年取得了 40 的最低分。最小值和最大值分别表示 2022 年和 2021 年的最高和最低性能，ChatGPT 仅在 2021 年超过 BingChat。ChatGPT 仅在 2021 年超过 BingChat。

下图显示了 ChatGPT 和 BingChat 对 VNHSGE 数据集响应的一致性。结果显示，BingChat 比 ChatGPT 表现出更高的稳定性。鉴于 ChatGPT 采用了更具创造性的方法，而 BingChat 则采用了搜索引擎机制，这一观察结果在意料之中。

下图还比较了 ChatGPT 和 BingChat 在 VNHSGE 数据集上的表现，以及 ChatGPT 在 OpenAI 提供的 AP 化学数据集上的表现。在 VNHSGE 数据集上，ChatGPT 的得分范围为 22% 到 46%。而在 VNHSGE 数据集上，ChatGPT 和 BingChat 的得分率分别为 48% 和 52.5%，在本文的测试案例中最高得分率为 67.5%，最低得分率为 33%。

此外，还与越南学生进行了比较。为了评估大规模语言模型的性能，我们将结果与越南学生的结果进行了比较。下表显示了 ChatGPT 和 BingChat 的转换得分、平均得分（AVNS）和越南学生的最佳得分（MVNS）。

ChatGPT、BingChat、Min和Max的平均分分别为4.8、5.25、3.3和6.75；2019-2022年越南学生的平均分分别为5.35、6.71、6.63和6.7。这表明，ChatGPT 和 BingChat 分数低于越南学生的平均分数。然而，Max 显示出比越南学生平均分更好的成绩，但不如越南学生的最好成绩。

下图比较了 ChatGPT、BingChat、Min 和 Max 的分数与越南学生的分数。该图进一步凸显了 ChatGPT 和 BingChat 在高中化学中的表现不如越南学生。

摘要

为了评估高中化学中的大规模语言模型，本文开发了 VNHSGE 数据集，其中包括2019-2023 年越南全国高中化学考试的九个科目的数据。然后评估了 ChatGPT 和 BingChat 的性能。结果表明，这两个模型在应用（困难）和高应用水平（非常困难）问题上的表现有限，在推理和知识应用方面存在不足。对 ChatGPT 和 BingChat 的比较也表明，BingChat 一般更为准确。将两个模型的得分与越南学生的得分进行比较，结果显示大规模语言模型的得分低于学生的平均得分，这表明在化学教育中替代人类智能存在局限性。

然而，大规模语言模型具有支持教育活动的潜力，例如为学生和教师提供即时反馈和个性化学习体验。此外，它们还可以帮助生成练习和评估所需的问题和材料。大规模语言模型还可以通过纳入更多专业知识、提高推理和应用技能来进一步改进。总体而言，大规模语言模型在教育领域大有可为，但仍有一些挑战需要克服。未来的研究将探讨大规模语言模型如何提高推理和知识应用能力，以及它们在提高学生学习成绩方面的有效性。