赶上最新的AI论文

即使是HTML数据,也可以对语言模型进行预训练!

自然语言处理

三个要点
✔️ 拟议的预训练模型HTLM与HTML数据
✔️ 使用简化的HTML引入基于BART的预训练方法
✔️ 在各种 "零"/"一 "设置中表现良好,例如摘要/表格生成任务。

HTLM: Hyper-Text Pre-Training and Prompting of Language Models
written by Armen AghajanyanDmytro OkhonkoMike LewisMandar JoshiHu XuGargi GhoshLuke Zettlemoyer
(Submitted on 14 Jul 2021)
Comments: ICLR2022

Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

语言模型的预训练通常包括预处理和只提取文本,而不是原封不动地使用从互联网上的网页收集的HTML数据。

然而,与普通文本相比,HTML数据有各种优势,比如它比普通文本包含更多的信息,例如,<title>元素是对文档<body>的一个很好的总结,而且数据更容易收集。

本文提出的论文提出了超文本语言模型(HTLM),这是第一个由HTML数据训练的模型。该模型显示了出色的性能,包括在ROUGE-1的性能上有多达8项的改进,用于零点总结。

HTLM(超文本语言模型)。

所提出的方法,即超文本语言模型(HTLM),是一个在从Common Crawl自动提取的HTML数据上训练出来的模型。这个模型是在BART的基础上进行修改的。

用于训练模型的数据(最小的HTML)。

一个典型的网页中所包含的大部分HTML信息对于语言模型的预训练并不一定重要,因此很难直接用于语言建模。

这是由于基于Transformer的模型不适合处理非常长的序列,因为它包含了很多增强页面美感的信息,而不是文档级信息,如JavaScript代码和CSS。

因此,下面描述的过程被用来将HTML数据转换为一种名为Minimal-HTML(MHTML)的简单格式,用于训练模型。

  • 删除HTML DOM中所有不包含一定数量字符(128,列表/表格/span为64)的文本的子树。
  • 不包括页眉、页脚、版权、表格和iFrame
  • 将连续的<div>元素合并成一个带有集成属性的<div>。
  • 删除除class和id之外的所有属性。
  • 文本与HTML比例小于0.46的MHTML文件被排除在外。

最后一个阈值是人工设定的,考虑到文本与HTML的比例低的文件往往有较低的平均文件质量。

这些过程平均从原始网页中删除了94%的字符,并将大约85%的MHTML文档保持在1024个BPE标记以下,这是BART和其他公司的最大标记长度。最后,2021年1月的Common Crawl快照产生了23TB的MHTML数据,这些数据被用来训练模型。

关于模型

该模型架构和学习目标采用了BART风格的去噪自动编码器。一个$lambda=3.5$的泊松分布被用于随机掩蔽的跨度采样。

该实验使用了与BART-Large相同的架构和检查点,有256个GPU和8192个批处理量,总共有33万个步骤。

遮盖时的尺寸提示。

BART学习预测泊松分布中被泊松分布采样的长度所掩盖的部分。

为了能够预测被屏蔽的部分并控制生成文本的长度,根据被屏蔽的长度插入了几个<mask>标记。要添加的标记数量为$n=max(1, \lfloor N (m, m*\epsilon) \rfloor$ ($\epsilon$是一个超参数,代表提示中噪声的大小)。在训练过程中,对80%的面具给予尺寸提示,其噪音为0.1。

基于HTML的任务执行提示

由于训练期间的HTML数据和任务执行期间的文本数据之间存在格式差异,当HTLM被应用于下游任务执行时,任务需要被转换为HTML格式。

在执行下游任务时,会手动或自动创建专用的提示模板,以便能够以预测遮蔽区域的格式来执行任务。当给出尺寸提示时,它们是基于训练集的平均长度,并对要生成的文本的长度给予提示。

当自动创建一个提示模板时,任务被转换为HTML格式,在作为任务给定的文本周围添加一个<mask>标记,并预测该部分。

实验结果

零/一枪提示。

首先,在 "零枪 "或 "单枪 "设置中试验所提出的方法(HTLM)。在手动创建提示时,会根据相关论文或训练集的多达50个样本创建一个模板。

生产任务

在生成任务中,评估是在下面描述的数据集上进行的。首先,用于总结任务的数据集如下。

Gigaword:由平均10个BPE代币的新闻文章标题组成的摘要

  • CNN/Dailymail:由大约3句话和50个标记组成的多句话摘要。
  • Reddit TIFU:Reddit帖子的摘要任务,不是新闻文章,但更抽象。
  • XSum: 新闻文章的抽象单句式摘要。

此外,用于生成结构化(结构化)表格格式任务的数据集如下。

  • E2E:餐厅领域的表格生成任务,样本量约为50K。
  • WebNLG:表格的生成任务,实验报告的结果是看到的(S)、未看到的(U)和全部(A)。
  • DART:生成开放域的表格格式的任务,包括维基百科的表格。

最初,评估是在一个摘要任务上进行的,这是一个典型的生成性任务。作为基线,我们将结果与PEGASUS(原始论文,本网站的评论文章)比较如下。

表中的分数分别代表ROUGE-1/ROUGE-2/ROUGE-L的分数。一般来说,手动提示(-Manual)在所有四个数据集上的表现都优于基线Zero-Shot总结结果。此外,带有尺寸提示的自动提示(-Auto-S)在四个数据集中的三个中表现优于PEGASUS。

然后在结构化表格生成任务中进行了实验。实验评估了单发、微调和前缀设置下的性能。请注意,这些任务使用表格数据作为输入,由于在One-Shot设置中很难应用通常的基于文本的预训练模型,因此只将微调和前缀设置中的结果与基线(GPT-2)进行比较。

另一方面,由于采用了基于HTML的模型,所提出的方法(HTLM)可以一次性完成此类任务。结果如下。

总的来说,结果显示与GPT-2相当或更好,这特别有吸引力,因为该方法对One-Shot也是可行的。

分类任务

分类任务包括在以下四个数据集上进行零点拍摄评估

  • RTE
  • BoolQ
  • 威诺格兰德
  • ǞǞǞ

结果如下。

总的来说,结果与GPT-3中型或大型相当。

微调实验

然后在现有的预学习语言模型和微调设置之间进行比较;GLUE基准测试的结果如下

总的来说,结果与其他预学习方法具有竞争性,表明基于HTML的预学习获得的表征在下游任务中也是有效的。还有可能通过改进提示来进一步提高性能。

迅速的数据效率

最后,基于HTML的提示的有用性是根据量化一个提示值多少数据点的研究来评估的(指标的细节省略)。结果如下。

该表显示,在微调方面,提示语比分类头有优势,分数越高越好。总的来说,所提出的方法与现有的基于文本的语言模型相比较好,证明了基于HTML的预训练的有效性。

摘要

这篇文章介绍了HTLM,它是基于HTML数据的预训练。

这个模型不仅比通常的基于文本的预训练模型更准确,而且还有其他优点,比如能够一次性完成由结构化数据组成的任务,如表格数据,这为使用HTML数据进行预训练开辟了新途径。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们