赶上最新的AI论文

利用 LLM 的上下文学习功能,将难度极高的

利用 LLM 的上下文学习功能,将难度极高的 "绩效评估概要 "自动化

大型语言模型

三个要点
✔️ 句子摘要有许多评价轴,很难对其进行评价
✔️ 传统上,需要大型数据集才能根据许多评价轴进行多维评价

✔️ 建议使用大型语言模型的上下文学习来消除对大型数据集的需求

Multi-Dimensional Evaluation of Text Summarization with In-Context Learning
written by Sameer JainVaishakh KeshavaSwarnashree Mysore SathyendraPatrick FernandesPengfei LiuGraham NeubigChunting Zhou
(Submitted on 1 Jun 2023)
Comments: ACL Findings '23

Subjects: Computation and Language (cs.CL)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

您通常如何评价一篇文章?

例如,清晰写作的关键是 3C--正确、清晰和简明:准确、清晰和简明。那么文学作品呢?例如,《源氏物语》的古文往往是长句,包含许多缩写,这可能不符合 3C,但复杂的人际关系和巧妙的心理描写使其成为世界上备受推崇的文学作品。

因此,不仅是句子,还有许多评估轴心。大规模语言模型可以在数秒内生成大量句子,但如何评价这些句子呢?为了促进自然语言生成的进一步发展,有必要根据社会需求在多维评价轴上对句子进行正确评价。

本文介绍的研究利用大规模语言模型的语境学习简化了对此类句子的多维评估。语境内学习是指大规模语言模型只需在其输入中添加少量示例,就能学会如何回答后续问题。

我们以总结为例,测试了这种上下文内学习是否可用于提供所需的文本评估,而无需提供以前所需的大型数据集。下面我们将解释问题的设置、建议方法的结构和有效性以及验证结果。

解决问题

本文将生成句子的方法称为自然语言生成(NLG)。本节将介绍评估这些 NLG 生成的句子时的问题设置。

假设 x 是无逻辑译文组的输入序列,y 是无逻辑译文组的输出序列。对于句子总结,x 可以看作是原始句子,y 可以看作是总结后的句子。

有些评价框架会输出一个代表 y 质量的分数 s。分数计算可以使用或不使用人工生成的参考值 r。

在本文涉及的多维评价中,y 是根据 d 个质量指标来评价的。当只有一个质量指标时,s 是一个标量,而当有多个质量指标时,d 维向量 S=(s1,s2,......)。sd)。因此,我们称之为多维评价。这个名字很浮夸,但它只是用多个指标来评价一个句子。

本文从四个方面对 y 进行评估:一致性、相关性、流畅性和连贯性。连贯性是指多个句子的结构质量。

问题的设置是为无LG 的汇总结果自动生成对这四个维度的评估。

拟议方法的机制

为了从一致性(Consistency)、相关性(Relevance)、流畅性(Fluency)和一致性(Coherence)四个维度对摘要结果进行自动评估,本文提出了一种基于语境学习的评估器(In-Context基于学习的评价器(ICE)。

图 1.拟议方法 ICE(基于情境学习的评估器)。

以图中的蓝色文字为例:Text 是原文,Summary 是摘要,Consistency 是一致性指标的评估结果(用数字回答)。文本、摘要是摘要评价方法的输入,一致性是摘要评价方法的输出,它直接教导输入的适当输出。这组文本、摘要和一致性可以说是一组单一的教师数据(本文称为情境中示例),因此在本示例中,给出了两个情境中示例,以便对某一文本和摘要对的某一评价轴进行评价(本文中,这是在提示的末尾、要回答评价结果的示例称为测试示例)。

技术要点 1. 使用大规模语言模型的上下文学习

大规模语言模型有一种能力叫上下文学习(in-context learning)。上下文学习是指在大规模语言模型的输入中添加一些示例(上下文示例),然后根据这些示例回答后续问题的能力。在本文中,我们利用了大规模语言模型(GPT-3 text-davinci-003 模型)的语境学习功能。

技巧点 2:使用具有浓缩含义的单词作为标签,按多维评价的维度创建上下文示例。

在这种情况下,由于问题已经设定,我们要做的就是根据原文和摘要文本,从多个角度分配评价结果。

因此,使用情境学习是技术要点 1。影响情境学习效果的一个因素是提示内容。

论文没有解释采用这一提示语背后的设计理念,例如尝试了其他各种提示语,但没有这一提示语就无法很好地对它们进行评价。为了更好地理解,我们试着想象情境中的学习是什么样的,这个提示是否合适。

假设语境中学习是这样的:当一个输入:xxx 输出:yyy 输入:zzz 输出:的句子被输入到一个大规模语言模型中时,该模型会找到一条规则,指出输入应该是这样的输出,并根据未知输入的规则填写输出:后面的单词。模型将根据未知输入的规则填写输出:后面的单词。换句话说,如果函数能够真正根据输入和输出后面的内容找到规则,那么输入和输出等无机标记似乎是可以接受的。

不过,这次提示的情况并非如此,因此我们可以将其作为一个参考点。

首先,所提议的方法将文本、摘要和一致这三个词作为非有机的、人类可以理解的词,如图中的例子。在我看来,这使得 "摘要 "中与 "文本 "有关的 "一致 "部分成为关注的焦点,而 "摘要 "中这一部分的规律性成为关注的焦点。如果是输入和输出,在我看来,要找到整个输入和整个输出的规律性,以及找到整个输出的规律性,可能会更加困难。

其次,建议的方法在评价指标中使用了 "CONSISTENT "一词,而不是简单的 "OUTPUT"。如果我们假设写评价指标 1,那么评价指标一词可能会增加应用某个值的概率。然而,它似乎只提供了与写 output 一样多的建议:应该使用什么值。为了提供更多相反的信息,在我看来,一致的定义似乎可以包括在内,但也有人担心信息过载可能无法很好地处理大规模语言模型。从这个意义上说,在标签后面加上浓缩意义的词语来创建上下文示例似乎是可行的。

Thirdly, the proposed method does not make the output evaluate multiple dimensions at once, but creates in-context examples and test examples for each evaluation axis, and executes each evaluation.Since having a large language model evaluate multiple dimensions at once is like increasing the number of entry fields to be filled in, it can be imagined that response control will become more difficult, so it is likely that output will be more stable if only one dimension's evaluation result is answered at a time.In addition, if the dimensions are to be evaluated independently in the first place, it would be a reasonable choice to evaluate one dimension at a time, as it would be noise for the evaluation results of the other dimensions to affect the evaluation of the other dimensions.

技巧点 3:根据分布情况选择几个情境中的例子

有人解释说,语境中学习的优势在于只需几个例子就能学习,但也有一个方面是,它只能用几个例子来学习。本文使用的是 GPT-3,但一次可输入 GPT-3 的句子数量(上下文窗口大小)最多为 4 个。因此,为了缩小上下文示例的数量,本文采用的方法是从囤积的上下文示例库中抽取四个示例。

提出了均匀抽样和分层抽样两种抽样方法。

均匀采样以相同的概率对所有样本进行采样,据说是为了再现样本池中样本的分布情况。尽管如此,创建样本池中样本的方式似乎可能会影响性能,但对于如何创建样本池中的样本并没有具体的解释。

分层抽样是一种将样本库中的样本按分数分为大、中上、中下和小四组,每组抽取一个样本的技术。这样做的目的是从每个分数范围中抽取具有代表性的点。至少,这似乎是一个合理的过程,因为有必要举出不同分数的例子,以便理解分数之间的差异;我很好奇四组是否足够,但查看本文的附录,它指出正确的人将按五分制评分。理想情况下,似乎应该有五组。

本文的验证结果包括人类评估方法与建议方法的分数分布比较。与人类分数的分布相比,建议方法的分数输出结果更接近人类分数的分布,但频率往往偏向于某个分数值范围。在均匀抽样和分层抽样之间,均匀抽样更接近人类得分的分布,结果也更稳定,因此本文基本推荐使用均匀抽样。

拟议方法的优点

本文提出的 ICE 方法的两个优势是无需训练和可扩展性。

无法学习

虽然说一并学习会引起误解,但所提出的方法并不需要监督学习微调或大型数据集。所需要的是在推断大规模语言模型时给出少量的上下文示例。

增强性

虽然我们关注的是 "多维 "评价,但所提出的方法是可扩展的,因为如果您想评价一个新的维度,只需提供与该维度评价相对应的上下文示例,就可以增加评价轴的数量。

核查结果

表 1 显示了使用拟议方法评估无LG 摘要能力的比较结果。

表 1.按各种评价方法(指标)对北大西洋联络小组(模型)的评价结果汇总表

比较方法(摘要文本评估方法)包括由人类进行评估的 Human 方法、现有的自动方法 ROUGE-L、BARTSc 和提议的 ICE 方法。

ROUGE-L 是一种将待评估的摘要文本与人工制作的参考摘要文本进行比较的方法,它考察的是共同出现的最长单词序列的长度,长度越长,质量越高。共同部分越多,质量越高。

BARTSc.即 BARTScore,是一种将句子评价视为句子生成任务的方法;BART 是输出给定单词下一个出现概率最高的单词的方法之一,概率模型计算出的概率即为分数。例如,如果在给定原句的情况下,摘要句生成摘要句的概率最大,则该摘要句可获得质量分数。

GPT-3 是 Open AI 开发的大规模语言模型;BRIO 是一种 NLG,它有意学习从一个句子生成多种摘要句子,并选择最佳摘要输出;T0 是一种比 GPT-3 更小的模型。T0 是一种 NLG,它是一种比 GPT-3 更小的模型,但被认为具有与 GPT-3 相当的能力。

评估结果表明,在人类评估中得分最高的无逻辑编码组依次是 GPT-3、BRIO 和 T0。表 1 中底色为红色、无色和蓝色的行分别表示最高分、中间分和最低分。这意味着具有相同颜色序列的比较方法将与人类评分顺序一致。

在所有评估结果中,只有 ICE 方法的颜色序列与人类评估结果相同。这说明 ICE 的评估准确率很高。

另一方面,《ROUGE-L》和《BARTSc.

在本研究比较的方法中,ROUGE-L 和 BARTSc.对 GPT-3 生成的摘要句的评分较低,这与人类的评分不同。论文推测,造成这种情况的原因是现有的大多数方法都是基于人工生成的参考摘要句子,如果它们与参考句子不相似,就不会得到很高的评分。更具体地说,可能是因为即使与参考文献不相似,人们也可能无法理解有利摘要文本的优点。

另一方面,所提议的方法是基于大规模语言模型的评估,该模型没有经过人为参考摘要句子的训练。我们认为,所提议的方法能够进行类似于人类的评价,而无需人为参考摘要句的牵引。

最后

在本文中,我们介绍了一种从多个角度自动评估机器生成的摘要句子的方法。我们的想法是利用所谓的 "提示工程"(prompt engineering)来自动评估摘要句子,该工程使用大规模语言模型的上下文学习来评估摘要句子。

从概念上讲,这项技术似乎属于现有的提示工程技术范畴,但它似乎是一个非常简单实用的想法。

如果只看方法说明,这个提示似乎是一个直截了当、显而易见的提示,但我也想象,一个看似显而易见的简单提示之所以被发现,是因为经过了深思熟虑。

可能会有更多的论文真正尝试大规模语言模型,因为使用这些模型似乎可以做到这一点,而且这些论文的结论很容易尝试,因此在实践中会有所帮助。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们