赶上最新的AI论文

FacTool:验证大规模语言模型生成信息可靠性的新框架。

FacTool:验证大规模语言模型生成信息可靠性的新框架。

大型语言模型

三个要点
✔️ 提出了一个新框架 FACTOOL,用于对大规模语言模型生成的信息进行事实检查
✔️ 利用各种工具(如谷歌搜索、谷歌学术、Python)检测大规模语言模型生成的信息中的错误。
✔️ 它适用于各种任务和场景,具有很强的可扩展性。

FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios
written by I-Chun ChernSteffi ChernShiqi ChenWeizhe YuanKehua FengChunting ZhouJunxian HeGraham NeubigPengfei Liu
(Submitted on 25 Jul 2023 (v1), last revised 26 Jul 2023 (this version, v2))
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

大规模语言模型在许多任务中都表现出很高的性能,其使用量也在迅速增长。另一方面,生成的文本有可能包含不正确的信息。这对于在与人类生命和活力相关的领域(如医学、金融、法律等)实施这些模型是一个特别的挑战。需要有技术使大规模语言模型能够检测生成文本中的错误信息,并检查生成文本的有用性和可靠性。

尽管已经有研究在大规模语言模型生成的文本中检测错误信息,但所有这些工作都是针对特定任务的,不足以应用于大规模语言模型,因为大规模语言模型具有很强的通用性。

因此,本文提出了一个名为 FACTOOL 的框架,用于检查大规模语言模型生成的文本是否正确,不受任务和领域的影响。该框架使用谷歌搜索和 Python 等各种 "工具 "来检查人工智能生成的文本是否正确。

什么是 FACTOOL?

FACTOOL 是一个可扩展的框架,可与各种工具相结合,检查大规模语言模型生成的内容是否正确。如下图所示,它由五个步骤组成。

  1. 主张提取:从大规模语言模型生成的文本中提取要点(主张)。
  2. 生成查询:使用合适的工具生成查询,为其要点(主张)收集证据。
  3. 工具使用将生成的查询输入合适的工具。
  4. 证据收集关于从工具中获得的证据的信息。
  5. 匹配验证:验证收集到的证据是否与要点(主张)一致。

本文研究了 FACTOOL 在四项任务中的实用性:"基于知识的质量保证",用于回答基于现有知识的问题;"代码生成",用于生成新的程序代码;"数学问题解决",用于解决数学问题;以及 "科学文献综述写作",用于总结科学文章。

实验 1:索赔提取评估

下面我们将介绍本文中进行的一些实验。首先,本节将介绍 FACTOOL 第一步--提取权利要求--的性能评估。它评估了从生成的句子中提取权利要求的准确性。这里使用的是 "RoSE "数据集。该数据集包含一组句子和专家从这些句子中提取的一组 "主张"。我们在此测试这些专家提取的主张与 FACTOOL 提取的主张的匹配程度。

FACTOOL 使用 GPT-4、ChatGPT 和 Flan-T5 三种不同的模型来提取索赔,并使用四个指标(ROUGE-1、ROUGE-2 和 ROUGE-L)来衡量每个模型提取的索赔与专家提取的索赔之间的相似性、BERTScore)。结果如下表所示,FACETOOL 提取的索赔与专家提取的索赔相当一致。

实验 2:评估 "FACTOOL "框架

在此,我们评估了使用 2ChatGPT 的 FACTOOL 和使用 GPT-4 的 FACTOOL 在四项任务中的性能:基于知识的质量保证、代码生成、数学问题解决和科学文献综述准备。

此外,还有两个标准可用于评估大规模语言模型确定 FACTOOL 中信息准确性的能力。这两个标准分别是 "3 次 CoT 自检 "和 "零次 CoT"。这两个标准是模型自我检查其输出是否正确的方法。您告诉模型找出您的错误之处,并加以解释和纠正。两者的区别在于你向模型展示了多少个例子,也就是提供了多少 "示范"。在 "三枪 CoT 自我检查 "中,向模型展示三个示例,然后要求其解决问题。在 "零次 CoT "中,要求学生在没有任何示例的情况下解决问题。它们分别被标记为自检 (3) 和自检 (0)。这些标准衡量模型判断自身输出准确性的能力,以及需要多少实例才能做到这一点。准确性、可重复性、拟合度和 F1 分数都是在主张和响应两个层面上报告的。每项任务的性能如下表所示。

首先,使用 GPT-4 的 FACTOOL 在所有测试场景(基于知识的质量保证、代码生成、数学问题和科学文献综述)中表现最佳:在基于知识的质量保证中,主张级 F1 为 89.09,响应级 F1 为 71.79;在代码生成中,主张级和响应级在基于知识库的质量保证中,主张级 F1 为 89.09,响应级 F1 为 71.79;在代码生成中,主张级和响应级 F1 分别为 92.11;在数学问题中,主张级 F1 为 98.97,响应级 F1 为 80.36;在科学文献综述中,主张级 F1 为 95.24,响应级 F1 为 94.74。这些数字在每项任务中都是最高的。

此外,使用 GPT-4 的 FACTOOL 在所有情况下都优于 Self-Check。这表明,FACTOOL 在人工智能识别和纠正自身错误的能力之外,还能更准确地评估事实真实性。特别是在科学文献综述方面,使用 GPT-4 的 FACTOOL 明显优于 Self-Check。这表明,与大规模语言模型相比,Google Scholar 在查找引文的特定任务中非常强大。

此外,可以看出在所有场景中,使用 GPT-4 的 FACTOOL 都优于使用 ChatGPT 的 FACTOOL。尤其是基于知识的质量保证任务中的查询生成和协议验证部分,ChatGPT 的难度更大,而 GPT-4 则相对容易,因此断言级的 F1 得分为 89.09,而 GPT-4 为 81.25;响应级的 F1 得分为 71.79,而 GPT-4 为 52.63。

总之,可以看出 FACTOOL 是检查文本是否符合事实的有用工具,而 GPT-4 的整体表现更好。

实验 3:使用 FACTOOL 评估聊天机器人的事实性

在这里,FACTOOL 使用 GPT-4 来研究各种聊天机器人给出的答案内容是否符合事实。这里研究了五个聊天机器人:GPT-4、ChatGPT、Claude-v1、Bard 和 Vicuna-13B。

FACTOOL 为每个聊天机器人提供了若干提示(问题或指令),并对回复进行了评估。提示是从 "基于知识的质量保证"、"代码生成"、"数学问题解决 "和 "科学文献综述写作 "四项任务中选择的,其中 "基于知识的问题解答 "是最常见的场景,因此测试时使用了三倍的提示。

FACTOOL 用于评估聊天机器人生成的答案是否符合事实(主张准确性)以及答案整体上是否恰当(答案准确性)。该评估是加权的,"基于知识的问题回答 "回答的权重高于其他任务。该权重由每个场景中提示数量的比例决定。

结果如下表所示。可以看出,GPT-4 在索赔准确性和答复等级方面得分最高。这表明,GPT-4 生成的答复最符合事实,而且总体上也提供了最恰当的答复。

摘要

本文提出了一个新框架 FACTOOL,用于检查大规模语言模型生成的信息是否符合事实。然而,由于大规模语言模型用途广泛,涵盖各种领域和任务,而且可以生成长句,因此对其进行事实检查并非易事。因此,FACTOOL 结合了五个步骤来解决这些问题:提取主张、生成查询、利用工具、收集证据和匹配验证。和其他各种工具来进行事实调查并展示其实用性。

FACTOOL 是一个多功能框架,可应用于各种任务,如常识问题解答(QA)、代码生成、数学问题求解和科学文献审查,并可扩展到更多场景。随着大规模语言模型使用的增加,事实检查将变得越来越重要,而像 FACTOOL 这样的事实检查框架在未来可能会迅速走俏。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们