赶上最新的AI论文

什么是AI-SCHOLAR？

ChatGPT能否通过大学计算机科学系的考试！？

ChatGPT能否通过大学计算机科学系的考试！？

聊天室GPT 08/06/2023

三个要点
✔️ 为了评估ChatGPT在计算机科学领域的表现，我们进行了一次盲测，要求学生在ChatGPT上回答真实的大学考试
✔️ ChatGPT-3.5的高分是20.5，ChatGPT-4的高分是24，而学生平均得分是23.9记录
✔️ 比较ChatGPT-3.5和ChatGPT-4的性能，并从测试评分结果分析其局限性

ChatGPT Participates in a Computer Science Exam
written by Sebastian Bordt, Ulrike von Luxburg
(Submitted on 22 Mar 2023)
Comments: Published on arxiv.
Subjects: Computation and Language(cs.CL); Computers and Society(cs.CY)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

大规模的语言模型目前在各种多领域取得了令人瞩目的成果，据说具有多样化的问题解决能力，包括编码和解决高级数学问题等具体任务。

然而，虽然这些语言模型的能力有了很大的提高，但一直没有研究集中在开发评估这些模型的新基准上，另外在大学考试中也很少对ChatGPT的表现进行系统验证。

本文重点介绍了用于评估大规模语言模型的新基准的开发，并描述了一篇通过让ChatGPT回答真实的大学期末考试中的问题并分析结果来研究大规模语言模型在计算机科学中的性能限制。本节。

实验设计

本文要求ChatGPT回答德国图宾根大学计算机系学生选修的"算法和数据结构"课程期末考试中的问题，以衡量计算机科学领域大规模语言建模的能力。Strucutures（算法和数据结构），这是德国图宾根大学计算机科学系学生选修的课程，并让他们回答期末考试的问题。

考试内容包括排序算法、动态编程和图形遍历（访问图形中每个顶点的过程）等主题，并包括各种不同类型的问题，包括选择题、证明题、图形绘制题和编码测试。

主要考试由200名学生参加，他们在试卷上提交手写的答案，然后由助教进行评分。

由于这些测试被编译在一个Latex文件中，测试中的图表也是由仅由文本组成的Latex代码生成的，所以问题被作为文本输入ChatGPT，输出的代码被手写在答题纸上作为公式，如下图所示，以回答问题并选择对于问题，模型被明确告知哪个选项是最合适的。

同样，关于画图的问题是通过让ChatGPT使用tikz-graph（一个用于latex绘图的库）输出一个latex命令，然后手写在答卷上。

此外，由于已知提示的内容对ChatGPT的输出有很大影响，我们尽量简单地输入问题，如下图所示，没有使用任何可能提高输出性能的思维链提示等。没有做任何提示工程。

由ChatGPT输出生成的答卷随后与200份学生答卷一起提交，由助教以与正常考试相同的方式进行评分。

会议还讨论了关于大规模语言模型的现有研究可能包含对模型答案评分的偏差。

为了解决这些问题，本研究以盲测的形式进行，为了获得没有偏见的更准确的评分结果，要求助教在事先不被告知的情况下进行评分。

结果

打分结果如下图所示。

图中显示了参加该测试的200名学生的平均分数以及ChatGPT-3.5和ChatGPT-4给出的答案的分数。

实验结果显示，两个ChatGPT模型的表现都超过了及格线（40分中至少有20分及格），在ChatGPT-4中，表现超过了学生的平均分数。

解决方案结果的分析

接下来，对ChatGPT-3.5答案的结果进行了分析。

ChatGPT-3.5的答案特别引人注目的是，如下图所示，证明问题的正确率非常高，而且输出的答案给人的印象是模型实际上 "理解 "并解决了这些证明方法。

关于图表动态编程的问题在学生中的正确率很低，而ChatGPT在这类问题上的良好表现是一个重要发现。

另一方面，ChatGPT-3.5很少能够解决说明标准算法操作的图形绘制问题，如下面所示的问题。

尽管这些关于算法的问题是本次考试中最简单的练习，但据观察，正确答案的比例很低，例如，生成有许多循环的图。

另一方面，在ChatGPT-4中，学生能够恰当地回答此类画图问题，对于学生中正确率较低的较难的选择题，他们也能选择适当的正确答案。

这些结果证实，ChatGPT-4比ChatGPT-3.5有显著的改进。

摘要

它是怎样的？在这个问题上，我们重点讨论了用于评估大规模语言模型的新基准的开发，并描述了一篇论文，该论文通过让ChatGPT回答真实的大学期末考试中的问题并分析结果，研究了计算机科学中大规模语言模型的性能限制。该论文被提交。

在这个实验中，ChatGPT-3.5和ChatGPT-4都超过了考试合格分数线，在ChatGPT-4中，参加考试的200名学生的平均分数也超过了。

然而，互联网上有很多资料包含了主考题目的信息（排序算法、动态编程、图形遍历等）和主考题目的答案示例，ChatGPT训练数据很可能包含这样的练习题和答案示例。ChatGPT的训练数据有可能包含许多这样的练习题和示例答案。

因此，本实验的结果不足以得出ChatGPT了解计算机科学的结论，未来还需要更多的研究来测试这种大规模语言模型的性能。

本实验中ChatGPT所使用的提示细节以及测试评分的结果可以在本文中找到，感兴趣的朋友可以参考。

与本文相关的类别

田中侑李

如果您对文章内容有任何改进建议等，请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系，我们将非常感激。