
ChatGPT 与人类专家有多接近?
三个要点
✔️ ChatGPT 在 NLP 领域备受关注,并在各种任务中表现出优异的性能。
✔️ 收集了由 40,000 多个问题和答案组成的人类 ChatGPT 对比语料库(HC3),并对人类和结果进行了语言学分析,以便为 LLM 内容生成提供见解。
✔️ 已开发出检测模型,并作为开放源代码提供,以促进未来对人工智能生成内容和网络平台监管的研究。
How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection
written by Biyang Guo, Xin Zhang, Ziyuan Wang, Minqi Jiang, Jinran Nie, Yuxuan Ding, Jianwei Yue, Yupeng Wu
(Submitted on 18 Jan 2023)
Comments: this https URL
Subjects: Computation and Language (cs.CL)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述。
ChatGPT2 的实施引起了学术界和工业界的关注。为了了解 ChatGPT 的能力和局限性,本研究创建了一个基于问题的数据集,其中包括与人类专家的对比;该数据集被称为人类 ChatGPT 对比语料库(HC3),用于研究 ChatGPT 响应的特征、人类 ChatGPT 对比语料库(HC4)的功能以及人类 ChatGPT 对比语料库(HC5)的功能。我们对 ChatGPT 生成的内容进行了全面评估,随后尝试了各种方法来检测生成的文本是 ChatGPT 还是人类文本。这让我们对 ChatGPT 的性能和演变有了深入了解,并揭示了检测不良影响的新方向。
导言
ChatGPT 已在自然语言处理领域崭露头角,并在许多 NLP 任务中表现出卓越的性能。它的应用范围很广,涵盖了从文本分类到代码生成等各种任务;ChatGPT 的性能基于 GPT-3.5 系列的微调和人工反馈,其卓越的能力引起了广泛的讨论。另一方面,人们也担心 ChatGPT 的潜在风险,在 UGC 平台上的不当使用会影响其质量和可靠性。应特别注意 ChatGPT 产生错误信息的可能性,尤其是在医学和法律等专业领域。还需要对 ChatGPT 的使用进行仔细评估,并采取措施应对潜在风险。
考虑到 ChatGPT 的透明度以及与可能滥用该模型有关的社会风险,作者做出了以下贡献。
1. 收集了一个广泛的数据集,即人类 ChatGPT 对比语料库 (HC3),其中包括 40,000 多个问题和答案,以促进人类与 ChatGPT 之间的对比研究。该语料库涵盖多个领域(如医学、法律、金融等),是研究语言模型改进方向的宝贵资源。
2. 对人类和 ChatGPT 生成的回答进行了全面评估和语言分析,并发现了有趣的模式。这些发现有助于识别 LLM 生成的内容,并为未来的语言建模方向提供启示。
3. 基于 HC3 数据集和分析,开发了适用于各种检测场景的 ChatGPT 检测模型,并确认了其有效性。
4. 收集了比较数据、评估和检测模型。4. 收集比较数据、评估和检测模型,并将其作为开放源代码,以促进未来对人工智能生成内容和网络平台监管的研究。
人类聊天GPT 对比语料库 (HC3)
ChatGPT 已在大量语料库中进行了预先训练,能够回答各种问题。本研究评估了 ChatGPT 的回答与人类回答的匹配程度,并考察了它们的诚实性和与用户需求的适当性。公共数据集和维基文本被用来建立比较数据集,信息来自专家回复和网络用户投票。
ChatGPT 的答案生成基于人类问题数据,并通过预览网站使用。每个问题都会更新一个线程来生成答案,并为特定数据集向 ChatGPT 添加说明。另一方面,我们注意到,人类答案和 ChatGPT 答案之间的一致性差异很小。
这项研究将是一个有趣的信息来源,可用于评估 ChatGPT 在语言生成方面与人类的接近程度。不过,需要注意的是,ChatGPT 的答案是基于网络抓取的信息和维基文本,在专业领域可能并不准确。
该研究侧重于 ChatGPT 回答的一致性和诚实性,为了解语言模型与人类相比的性能提供了重要见解。然而,ChatGPT 在某些领域的信息来源和准确性方面的挑战为未来的改进留下了空间。我们仍然需要谨慎地推进和验证语言模型。
由于在本研究中,人类/ChatGPT 对每个问题的回答可能不止一个,因此将采用以下格式来组织比较数据
总体而言,英文版收集了 24,322 个问题、58,546 个人工回复和 26,903 个 ChatGPT 回复。中文版收集了 12,853 个问题、22,259 个人工回复和 17,522 个 ChatGPT 回复。 表 1 列出了每个数据集的元信息。
ChatGPT 的全面评估和特征描述
在本节中,我们邀请了一些志愿者对 ChatGPT 进行评估,然后根据志愿者提供的数据,通过人工方式就几个特征得出结论。主要的人工评估分为图灵测试和实用性测试,可全面评估 ChatGPT 在不同领域的表现。
在一个对比数据集中,我们评估了专家和业余爱好者对 ChatGPT 生成的答案的检测程度。实用性测试还评估了专家小组对 ChatGPT 答案的实用性评价。结果显示,ChatGPT 在不同领域的表现存在差异,在金融和心理学领域的表现尤为突出,但在医学领域仍有改进空间。
根据志愿者的反馈,ChatGPT 出现了一种独特的模式:他们倾向于提供有条理、详细的答案,减少偏见和破坏性信息,但需要注意的是,他们可能缺乏知识,也可能捏造事实。应谨慎使用,尤其是在法律问题上。
ChatGPT 与人类的主要区别在于,ChatGPT 专注于问题并提供中性答案,而人类的答案则灵活、主观、口语化,能表达情感和个性。这改进了 ChatGPT 在广泛领域中的应用,但它在灵活性和个性方面与人类有不同的特点。
对 ChatGPT 的评估范围很广,目前正在对其在不同领域的性能进行研究。未来有望对其进行改进,以解决其在医疗保健领域性能有限的问题。此外,在使用 ChatGPT 时需要谨慎,了解其独特、突出的方面和局限性
ChatGPT 和人工解答
我们详细分析了 ChatGPT 和人类回复的语言特点。人类回复较短,使用的词汇也更多样化。另一方面,ChatGPT 的词汇量更大,但平均生成的回复更短。语篇分析和依存关系分析显示,ChatGPT 经常使用 NOUN(名词)和 VERB(动词)等词,而 ADVERB(副词)和 PUNCT 的使用频率较低。情感分析表明,ChatGPT 表达了更多的中性情感,而人类则包含了更多的负面情感。对语言模型复杂性的分析还表明,ChatGPT 的复杂性相对较低,而且有能力重现从大型文本库中学习到的常见模式。
这种深入分析有助于更深入地了解 ChatGPT 和人类回复在语言特征方面的差异:ChatGPT 显示出了从大型数据集学习和再现常见模式的出色能力,而人类回复则包含大量独特的表达和情感。这种差异对于理解 ChatGPT 的优势和局限性非常重要,并为改进未来的语言模型提供了启示。
演示 AIGC 检测方法并对 ChatGPT 进行性能评估
本节将测试各种检测方法,以检测人工智能生成的内容(AIGC),并区分机器生成的内容和人工生成的内容。在不同条件下对机器学习和深度学习等方法的性能进行了评估。
实现了三种检测方法:基于 GLTR Test-2 的逻辑回归模型、用于单一文本检测的深度分类器和用于 QA 检测的深度分类器。用于识别内容。在不同粒度和数据源下对这些方法的性能进行了评估,并提供了详细的结果和讨论。
在实现细节中,gpt2-small 和 Wenzhong-GPT2-110M 被用作 GLTR Test-2 的 LM,而 roberta-base 和 chinese-roberta-wwm-ext 被用作基于 RoBERTa 的深度分类器。这些模型来自 huggingface transformer,并使用 sklearn 和 AdamW 优化器进行训练。
实验设计考察了使用 HC3 数据集训练人类和 ChatGPT 回答的二元分类器的方法,并设计了不同的实验组。测试了指令、句子级检测和相应问题的有用性的影响,并根据不同的训练集和测试集组合生成了六个不同版本,以评估模型的性能。
从可靠性和安全性的角度来看,检测人工智能生成的内容非常重要。本节中的演示为使用机器学习和深度学习的检测方法的性能评估提供了启示。如何区分机器生成的内容和人工生成的内容是一个复杂的问题,预计将在今后的研究中加以探讨。
实验结果
基于多次实验的结果表明,基于 RoBERTa 的检测器优于 GLTR,并且由于其抗干扰特性,能更稳健地检测 ChatGPT 生成的文本。虽然它不受指示词的影响,并且在非分发场景中表现有效,但 GLTR 对 ChatGPT 模式很敏感,表现不佳,尤其是在中文数据集上。这突出表明,基于深度学习的 RoBERTa 比逻辑回归模型更有优势,在检测人工智能生成的内容方面更胜一筹。
我们还发现,删除指令可以提高模型的性能,但这可能会影响以句子为基础进行训练的模型的性能,因此需要适当的平衡。对生成文本的检测显示,完整句子比单句更难,而在原始语料库中训练的检测器尤其具有优势。
此外,在训练模型时使用句子语料库被认为有助于提高性能,并强调 QA 类型的检测器比单一文本检测器更有效,尤其适用于过滤场景。与会者指出,ChatGPT 的检测难度因数据源而异,在传输开放式 QA 数据集时缺乏一致性。
总之,这些实验结果表明,ChatGPT 的检测性能是复杂的,受到模型训练中各种因素的影响。
结论
该研究引入了 HC3 数据集,并基于人类和 ChatGPT 的回复进行了广泛的评估和实验;利用 HC3 数据集进行的人类评估和语言分析深入揭示了人类和 ChatGPT 之间的差异,并为未来语言模型的发展方向提供了建议。ChatGPT 内容检测实验还为 AIGC 检测工具的研究和开发得出了重要结论。
这项研究还为 ChatGPT 的性能评估引入了一个新的数据集,并揭示了语言模型与人类反应之间的差异。展望未来,这些研究结果将为语言模型的潜在改进和应用提供基础。我们还期待在检测工具的研究和开发方面取得进展,从而开发出更有效、更强大的人工智能生成内容检测方法。
与本文相关的类别