
FABLES 是一个用于书籍摘要的数据集,完全由 100k 个或更多词组的长文本组成!
三个要点
✔️ 建立 FABLES(用于书长摘要的忠实性注释),这是一个注释数据集,由26 本书摘要和3158 项索赔组成
✔️ 由三个步骤组成的工作流程
大大降低了建立数据集所需的成本和时间
✔️ 统计和定量分析揭示了几种 LLM 模型在图书摘要方面的性能
FABLES: Evaluating faithfulness and content selection in book-length summarizaiton
code:
written by Yekyung Kim, Yapei Chang, Marzena Karpinska, Aparna Garimella, Varun Manjunatha, Kyle Lo, Tanya Goyal, Mohit lyyer
(Submitted on 1 Apr 2024 )
Comments: Published on arxiv.
Subjects: Computation and Language(cs.CL); Artificial Intelligence(cs.AI)![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
近年来,长语境大语言模型(LLM)引起了人们的极大兴趣,因为从技术上讲,它们能够概括长度超过 10 万个词素的长篇句子。
另一方面,尽管对于此类摘要而言,忠实性(对原文的忠实回应)和主张(摘要中的主张部分)之间的联系非常重要,但最近在这一领域的研究仅关注与输入无关的方面,如一致性。.
由于输入文本的长度和复杂性,聘请人工标注者来阅读和理解这些文本非常昂贵和耗时,这一直是 LLM 研究的主要瓶颈,从而使问题变得更加复杂。
为了解决这些问题,本文介绍了一个注释数据集 FABLES(Faithfulness Annotations for Book-Length Summarization),该数据集由 26 篇 LLM 生成的书籍摘要和 3158 个 CLAIMs 组成。本文通过构建多个 LLM 模型并与之进行对比实验,展示了 LLM 图书摘要任务的新可能性。
FABLES (Faithfulness Annotations for Book-Length Summarisation)
FABLES(Faithfulness Annotations for Book-Length Summarization)是本文新构建的一个数据集,它由人类的注释组成。注释组成。
前提是,建立由摘要和注释组成的大型数据集的一个主要瓶颈是,无论从成本还是时间上来说,都不可能让注释者仅仅为了给 LLM 生成的摘要注释而阅读 10 万个或更多的词素。另外还有以下情况
本文采用一种非常简单的方法,即只使用数据集中注释者阅读过的书籍,成功地解决了这一问题。
这减少了注释者理解数据集所需的时间,使他们能够主动将 100k 或更多词素的长句纳入数据集中。
除此之外,本文还分三个步骤构建了数据集,如下图所示。
(a) 总结
首先,在总结文本时,我们准备了 2023-2024 年出版的 26 本图书的电子版,具体如下。
如上所述,所有书籍都已由注释者阅读过,这表明书籍的平均长度为121k 字节,处理的文本比现有数据集长得多。
为了总结这些著作,本文还采用了一种现有的方法,即分层合并策略(Chang 等人,2023 年),以GPT-3.5-Turbo、GPT-4-Turbo、Mixtral 和 Claude-3-Opus作为基础模型。模型。
(b) 索赔提取
下一步,将所得摘要细分为多个 CLAIM,以便进行详细注释。
例如,Claude-3-Opus 生成的摘要和 GPT-4 提取的 CLAIM 如下
(c) 人类评估
最后一步是由注释员(14 位英语为母语者)进行注释。
注释者被分配对所有 LLM 生成的摘要进行注释,这些摘要以随机顺序出现,通过采用这一步骤,成功构建了一个在现有研究中无与伦比的大型数据集,该数据集由 26 本图书的 130 篇摘要和 3158 条注释组成。通过这一步骤,我们成功构建了由 26 本图书的 130 个摘要和 3158 个注释组成的大型数据集,这是现有研究无法比拟的。
值得注意的是,构建这个数据集花费了5.2 千美元,耗时约 11 个小时,预算很低,时间很短,这在构建大型数据集方面是一个重大突破。
分析 FABLES 中的摘要
除本文外,还对 FABLES 中的 3158 项注释进行了统计和定性分析。
下表显示了从 LLM 生成的摘要中提取的、被注释者评为 "可信"、"不可信"、"部分支持"和"无法验证 "的索赔百分比。下表
从表中可以看出,Claude-3-Opus 得出的摘要最忠实(忠实度 = 90%),其次是 GPT-4 和 GPT-4-Turbo,但得分明显较低。
这些结果表明,在图书摘要任务中,Claude-3-Opus 与其他模型的性能差异很大。
此外,定性分析的结果如下图所示。
分析结果表明,大多数被标注为 "不忠 "的说法要么与具体事件有关(31.5%),要么与某种性格或关系状况有关(38.6%)。
摘要
结果如何?在这篇文章中,我们构建了 FABLES(Faithfulness Annotations for Book-Length Summarisation)--一个对 26 本图书的 LLM 生成摘要中的 3158 条主张进行注释的数据集,并使用多个 LLM 模型进行了对比实验。论文介绍了多个LLM 模型的对比实验,展示了 LLM 书籍摘要任务的新可能性。
在本文的注释任务中,我们巧妙地使用了在注释任务之前阅读过每本书的注释者,从而构建了一个前所未有的大型长文本注释数据集,这可能会成为未来数据集构建的标准。
此外,本文所做的分析为我们深入了解 LLM 图书摘要任务的准确性为何会下降这一问题提供了重要启示,我们期待在本文的基础上出现更准确的 LLM 模型。
本文所介绍的数据集和实验结果的详情可参见本文,有兴趣者可参阅本文�
与本文相关的类别