赶上最新的AI论文

德语摘要系统面临的挑战和解决方案:培训数据和现有系统分析

德语摘要系统面临的挑战和解决方案:培训数据和现有系统分析

计算与语言

三个要点
✔️ 在自然语言处理领域,解决方案不仅对英语重要,对其他语言也同样重要
✔️ 考察了德文摘要文本摘要的需求,并探讨了行业内没有实用解决方案的原因。

✔️ 对德文摘要的现状进行的调查显示了一些积极的迹象,例如公开可用系统数量的增加和数据集的扩大。

On the State of German (Abstractive) Text Summarization
written by Dennis AumillerJing FanMichael Gertz
(Submitted on 17 Jan 2023)
Comments: Accepted at the 20th Conference on Database Systems for Business, Technology and Web (BTW'23)

Subjects: Computation and Language (cs.CL)

code:  

 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

在自然语言处理领域,包括英语和其他语言在内的解决方案正变得越来越重要。对于处理大量文本数据的公司来说,文本摘要系统是一个有用的工具,它可以对长文档进行摘要,使其更易于理解。

本研究调查了德语摘要文本总结的需求,并探讨了业界缺乏实用解决方案的原因。研究重点是训练数据和分析现有摘要系统。研究表明,流行的数据集有时并不适合摘要归纳,与基准相比,现有的系统往往效果不佳。评估质量低的原因包括训练数据不足、位置偏差以及缺乏预处理策略和分析工具。

因此,在干净的数据集上对模型进行评估非常重要,这有望在评估过程中提高质量。还有人指出,仅仅依靠基于𝑛图的评分方法(评估摘要质量最常用的方法之一)是有问题的。

介绍

摘要有两种主要方法:提取系统和抽象摘要系统。

摘要有可能通过引入新词新句来提高摘要的流畅性和简洁性。然而,非英语摘要缺乏数据和评价指标。

当前的摘要系统存在提取和语法错误等问题,可能导致错误的结论。此外,当前的管道没有考虑用户指定的过滤程序(用户端输入方法),因此有必要提高摘要数据集的质量。本研究还将德语作为一个非英语范例进行重点分析。

相关研究

以下是以往研究中使用的数据集列表。

MLSUM. 由新闻文章及其摘要组成的多语言数据集。
总和 结构与 MLSUM 相似的数据集侧重于自动提取的摘要
Swisstext. 根据维基百科页面提供长篇摘要的数据集。
Klexikon 从 Klexikon 而不是维基百科中提取文章的数据集。
维基语言 提供从 WikiHow 中提取的程序摘要的数据集。
法律总和 提供法律文件摘要的数据集。
EUR-Lex-Sum 提供欧盟法律文书摘要的数据集。

在对德国摘要系统进行评估时,可选择 Huggingface Hub 等公开可用的模型以及为应对 Swisstext 2019 摘要挑战而发布的私有模型。这些模型通过 ROUGE 指标进行评估,以 ROUGE-1、ROUGE-2 和 ROUGE-L 等分数作为性能指标 ROUGE 是一套用于评估摘要适用性和信息再现性的指标,可定量衡量摘要的质量和适用性ROUGE 是一套用于量化衡量摘要质量和符合性的指标。此外,云提供商提供的提取式摘要服务也发挥了一定作用。这揭示了不同方法和模型的性能和局限性,为开发和改进有效的摘要系统指明了方向。

系统评估方法

数据评估

第一步是清理数据。这包括确保数据质量的基本技术。具体来说,这包括空样本、最小文本长度、压缩率过滤和重复删除。此外,还介绍了样本检查方法,包括样本顺序审查、随机样本审查以及异常值和代表性样本检查。这些方法有助于评估数据集的质量,确保从实验结果中得出可靠的概括。

模型评估

为评估摘要系统的性能,已经提出了几种模型检查方法。首先,使用经过清理的测试集来评估模型。这是一种标准技术,用于检查训练的模型是否过度训练。其次,使用修改后的测试数据对模型进行测试,以研究其泛化能力。

这种方法可以作为调查特定系统是否可用于其他数据集的一种有用手段。此外,还建议使用适用于系统摘要的特定措施来评估摘要的质量。摘要中的抽象性和词性变化等因素都会考虑在内,从而对输出的质量进行初步评估。

最后,讨论了摘要中应保持的事实一致性。摘要应保持原始参考文献的事实。这可以作为一个优化目标来实现,以评估摘要的真实性并生成更真实的摘要。

提取模型和基准系统

提取模型是一种生成文本摘要的技术,它可以从原文中提取重要的句子或短语,并将它们组合起来生成摘要。句子或短语的重要性通常是根据句子中的词频、句子的位置和句子的长度等因素确定的。提取模型的特点是摘要的内容完全包含在原文中,因为原文中的信息是逐字使用的。

基线系统是指某项任务或问题的参考模型或算法。通常,基线系统代表该任务或问题中最简单或现有的基本方法。基线可以作为后续改进的基础,也可以作为评估新方法的基础。就文本摘要而言,基线系统是一种简单的方法,例如 "read-3",它使用前几句话作为摘要。

分析

过滤

MLSUM 和 MassiveSumm 是用于训练摘要生成的数据集。这些数据集包含摘要任务的特定信息。但是,这些数据集可能包含低质量的示例或不恰当的示例。因此,通常的做法是从训练数据集中过滤掉这些示例。

筛选可能会改变训练数据集的分布。这意味着整个数据集的性质和特征可能会发生变化。平均值和四分位数等统计指标可用于直观显示这种分布变化。这些指标有助于总结整个数据集的特征并显示变化。

因此,通过观察黑色虚线表示的平均值和四分位数的变化,可以了解数据集的分布因过滤而发生的变化。这种分析有助于评估训练数据集的质量和性能,并选择合适的数据集来训练模型。

结果和基线运行

现有的 EVA(评估即服务)提出了对已发布模型进行评估的可重复性问题:尽管 EVA 是客观评估和比较模型性能的平台,但有人指出,很难再现已发布模型的评估结果。有人指出,已发表模型的评估结果很难再现。此外,测试集的自报分数与实际分数之间存在显著差异,这凸显了只有特异性结果才能重现预期分数的挑战。

专家网评估指标的再现性也是一个值得讨论的问题。特别是,有必要利用不同的基线方法,澄清基于 ROUGE 分数的评估背景。为解决这些问题,需要努力提高基于 EVA 模型评估的可重复性。

过滤后的结果

对于 MLSUM 和 MassiveSumm 测试集,过滤后的 ROUGE-1 分数可能低于 20 分。特别是在 MLSUM 数据集上,我们观察到基于 t5 的模型在过滤后的数据集上的表现比过滤前更好。另一方面,MassiveSumm 数据集的长度分布有很大不同,并且受到提取过滤的影响。这些发现引发了对过滤如何影响当前最先进技术的讨论,并表明可以通过结合不同的评估方法实现更全面的评估。

定性分析

研究发现,公开的系统除了计算 ROUGE 分数外,并没有进行其他试验。尽管报告的分数很高,但一些系统可能会出现严重故障。研究还发现,所有使用的架构都只能在相对有限的范围内工作,无法处理长篇摘要。这些发现表明,这些模型的实际适用性无法得到证实。对系统输出质量的调查还表明,虽然摘要可能与原文有很大偏差,但它们也可能缺乏内容的准确性和真实性,而且很少能提供连贯的文本。

结论

对德国摘要总结现状的研究显示了一些积极的迹象,如公开可用系统数量的增加和数据集的扩大。然而,一些挑战依然存在,最突出的是数据质量和模型的通用性。以数据为中心的探索性方法和伦理考虑对于应对这些挑战非常重要。此外,还需要开发非独立的训练框架,设计可应用于多个领域的系统。展望未来,社区合作和努力非常重要。我们希望这将带来更先进的抽象摘要系统,并扩大其应用范围。

 
  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们