赶上最新的AI论文

ChatGPT (GPT-3.5 和 GPT-4)的性能是否正在发生变化?斯坦福大学和加州大学伯克利分校的一组研究人员对此进行了调查。

ChatGPT (GPT-3.5 和 GPT-4)的性能是否正在发生变化?斯坦福大学和加州大学伯克利分校的一组研究人员对此进行了调查。

大型语言模型

三个要点
✔️表明,大规模语言模型(GPT-3.5 和 GPT-4)的性能在短期内可能会发生重大变化
✔️ 要了解大规模语言模型性能的中长期变化,需要持续开展研究。
✔️ 为促进对大规模语言模型性能变化的研究,本实验的评估数据和 ChatGPT 的回复已公开发布。

How is ChatGPT's behavior changing over time?
written by Lingjiao ChenMatei ZahariaJames Zou
(Submitted on 18 Jul 2023)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code:
  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述。

自 2022 年发布 ChatGPT 以来,GPT-3.5 和 GPT-4 一直是使用最广泛的大规模语言模型--AI-SCHOLAR 的读者可能已经在各种场合使用它们了。然而,OpenAI 并未宣布何时以及如何更新这些模型。因此,许多人认为将大型语言模型集成到大规模工作流程和服务中是有风险的。其中一些人明显感觉到它们的性能正在下降。

因此,本文对 2023 年 3 月版和 2023 年 6 月版 GPT-3.5 和 GPT-4 的四项任务(a. 数学问题解决;b. 回答敏感/风险问题;c. 代码生成;d. 视觉推理)进行了评估。下图显示了每项任务及其评估方式。下图概述了每项任务和验证结果。

总之,验证结果表明,大型语言模型的性能会在相对较短的时间内发生显著变化,这凸显了对大型语言模型质量进行持续监控的必要性。

任务 1:解决数学问题。

本文研究了在一项涉及判断给定整数是否为质数的任务中数学解题能力的变化。对于人类来说,判断一个数字是否为质数相对容易,而且结果清晰,因此人类易于理解,适合用于评估成绩。这项任务也需要推理。要判断一个数是否是质数,需要从逻辑上考虑多个步骤,例如用这个数除以所有其他数,看是否能被整除。此外,这种推理能力不仅适用于解决数学问题,也适用于评估一般的问题解决能力,以及评估大规模语言模型的综合性能。

结果如下图所示。如下图 (a) 所示,GPT-4 的准确率从 97.6%(3 月)大幅下降到 2.4%(6 月),而 GPT-3.5 则从 7.4%(3 月)大幅提高到 86.8%(6 月)。此外,如下图 (b) 所示,GPT-4 的回复更加简洁。生成的平均字符数从 821.2 个字符(3 月份)大幅减少到 3.8 个字符(6 月份)。相比之下,GPT-3.5 应答的字符数增加了近 40%。令人惊讶的是,即使是如此简单的任务,大规模语言模型的性能也有很大差异。


本文将这些巨大差异的一个可能解释确定为 "思维链"。上图(b)中的样本显示,GPT-4(3 月版)受思维链的影响很大。要判断整数 17,077 是否是质数,任务首先被分解成四个步骤:找出 17,077 是否是偶数,求出 17,077 的平方根,得到所有比它小的质数,检查 17,077 是否能被其中任何一个数整除、以下步骤。通过这些步骤,最终得出正确答案:17,077 是质数。然而,在 GPT-4(6 月版)中,思维链似乎没有发挥作用。

另一方面,在 GPT-3.5(3 月版)中观察到了完全相反的变化:在 GPT-3.5(3 月版)中,倾向于先生成答案 "否",然后再执行推理步骤。而在 GPT-3.5(6 月版)中,这个问题似乎已经得到解决,推理步骤先被写出,最后生成正确答案 "是"。

任务 2:回答敏感/危险问题

众所周知,向大规模语言模型提出敏感问题可能会产生社会偏见、个人信息和有害文本,从而对用户产生负面影响。因此,本文研究了大规模语言模型在回答敏感问题时是否会改变其性能。

验证结果如下图所示:对于 GPT-4,应答率(敏感应答的百分比)从 21.0%(3 月)下降到 5.0%(6 月),而对于 GPT-3.5,应答率从 2.0%(3 月)上升到 58.0%(6 月)。

另一个发现是,GPT-4 生成的文本字符数从 600 多个减少到 140 个左右。GPT-4 在拒绝回答时不再解释,而是给出简明扼要的答复。如上图(b)所示,在 3 月份,对拒绝的原因进行了解释,而在 6 月份,唯一的答复是 "对不起,我无法提供帮助"。GPT-3.5 中的情况也是如此。虽然这些大规模语言模型变得更加安全,但它们不再解释拒绝回答某些问题的原因。

任务 3:代码生成

代码生成是大规模语言模型的另一个典型应用。虽然有很多代码生成数据集,但用它们来评估大规模语言模型的代码生成能力可能会导致数据污染问题,因此本文创建了一个新的数据集:在线 LeetCode。该数据集是从该平台的 "简单 "类别中选取的 50 个最新问题。这些问题的答案和解释于 2022 年 12 月首次发布,因此适合用于评估大规模语言模型处理未知问题的能力。大规模语言模型生成的代码(即问题答案)会被发送到 LeetCode 的在线评审系统,并在那里接受自动评估。如果在线评审接受大规模语言模型生成的代码,即代码可以无差错执行并产生预期结果,则该代码为 "可直接执行 "代码。结果如下图所示。

直接可执行代码的数量在 3 月至 6 月间有所下降。如上图(a)所示,3 月份,GPT-4 生成的代码中有 50% 以上是可执行的,但到 6 月份,这一比例已降至 10% GPT-3.5 也呈现出类似的趋势。两种模型的冗余度也略有增加。

论文指出,6 月份版本生成的代码中添加了 "额外的非代码文本",这可能是主要原因。大规模语言模型生成的代码前后添加了 "python "和""以及更多注释。这些额外的文本和注释可能会导致代码不可执行。特别是,在代码前后添加"'''python'''和 ''''' 会导致三重引号("""),从而使代码无法作为 Python 代码执行。三层引号是 Python 中用于定义字符串的符号,而不是执行代码的部分,因此如果添加了该符号,该部分的代码将被视为不可执行代码。我们还注意到,将此类 "额外 "文本或注释作为代码的一部分,会导致难以发现问题,尤其是当这些代码被用于大型软件流水线时。

任务 4:视觉推理

与以往的任务不同,我们测试的是视觉推理(从视觉信息中得出逻辑结论的能力),这需要更加抽象的推理能力。在这里,我们使用抽象与推理语料库(ARC)数据集进行了验证,该数据集是在机器学习模型中测试人类抽象思维和推理能力的数据集。使用该数据集的任务要求用户查看输入模式(称为 "输入网格")并生成相应的输出模式(称为 "输出网格")。

下图(b)就是一个例子。当某种颜色或形状等视觉信息被输入大规模语言模型时,就会从中发现模式,并输出 3x3 颜色阵列。在这项任务中,使用了 ARC 数据集中的 467 个样本来评估正确答案的百分比。

如下图(a)所示,GPT-4 和 GPT-3.5 的成绩都略有提高。然而,尽管总体成绩有所提高,但如下图(b)所示,一些在 GPT-4 (3 月版)中正确的答案在 GPT-4 (6 月版)中却不正确。换句话说,即使整体性能没有大的变化,细微的变化也是隐性的,可能需要仔细监测,特别是对于关键应用程序。

摘要

本文显示,GPT-3.5 和 GPT-4 的性能可能在短时间内发生了显著变化。因此,大规模语言模型的性能并不稳定,在将其纳入服务等时,设计时需要考虑性能波动,并进行持续监测。研究团队将继续定期评估 GPT-3.5 和 GPT-4 等大规模语言模型。本研究的评估数据和 ChatGPT 的回复可在Github上获取。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们