即使是HTML数据，也可以对语言模型进行预训练!

自然语言处理 26/05/2022

三个要点
✔️ 拟议的预训练模型HTLM与HTML数据
✔️ 使用简化的HTML引入基于BART的预训练方法
✔️ 在各种 "零"/"一 "设置中表现良好，例如摘要/表格生成任务。

HTLM: Hyper-Text Pre-Training and Prompting of Language Models
written by Armen Aghajanyan, Dmytro Okhonko, Mike Lewis, Mandar Joshi, Hu Xu, Gargi Ghosh, Luke Zettlemoyer
(Submitted on 14 Jul 2021)
Comments: ICLR2022
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

语言模型的预训练通常包括预处理和只提取文本，而不是原封不动地使用从互联网上的网页收集的HTML数据。

然而，与普通文本相比，HTML数据有各种优势，比如它比普通文本包含更多的信息，例如，<title>元素是对文档<body>的一个很好的总结，而且数据更容易收集。

本文提出的论文提出了超文本语言模型（HTLM），这是第一个由HTML数据训练的模型。该模型显示了出色的性能，包括在ROUGE-1的性能上有多达8项的改进，用于零点总结。

HTLM（超文本语言模型）。

所提出的方法，即超文本语言模型（HTLM），是一个在从Common Crawl自动提取的HTML数据上训练出来的模型。这个模型是在BART的基础上进行修改的。

用于训练模型的数据（最小的HTML）。

一个典型的网页中所包含的大部分HTML信息对于语言模型的预训练并不一定重要，因此很难直接用于语言建模。

这是由于基于Transformer的模型不适合处理非常长的序列，因为它包含了很多增强页面美感的信息，而不是文档级信息，如JavaScript代码和CSS。

因此，下面描述的过程被用来将HTML数据转换为一种名为Minimal-HTML（MHTML）的简单格式，用于训练模型。

删除HTML DOM中所有不包含一定数量字符（128，列表/表格/span为64）的文本的子树。
不包括页眉、页脚、版权、表格和iFrame
将连续的<div>元素合并成一个带有集成属性的<div>。
删除除class和id之外的所有属性。
文本与HTML比例小于0.46的MHTML文件被排除在外。

最后一个阈值是人工设定的，考虑到文本与HTML的比例低的文件往往有较低的平均文件质量。

这些过程平均从原始网页中删除了94%的字符，并将大约85%的MHTML文档保持在1024个BPE标记以下，这是BART和其他公司的最大标记长度。最后，2021年1月的Common Crawl快照产生了23TB的MHTML数据，这些数据被用来训练模型。

关于模型

该模型架构和学习目标采用了BART风格的去噪自动编码器。一个$lambda=3.5$的泊松分布被用于随机掩蔽的跨度采样。

该实验使用了与BART-Large相同的架构和检查点，有256个GPU和8192个批处理量，总共有33万个步骤。

遮盖时的尺寸提示。

BART学习预测泊松分布中被泊松分布采样的长度所掩盖的部分。

为了能够预测被屏蔽的部分并控制生成文本的长度，根据被屏蔽的长度插入了几个<mask>标记。要添加的标记数量为$n=max(1, \lfloor N (m, m*\epsilon) \rfloor$ ($\epsilon$是一个超参数，代表提示中噪声的大小)。在训练过程中，对80%的面具给予尺寸提示，其噪音为0.1。