EXT5：过渡学习的极端多任务扩展

自然语言处理 25/05/2022

三个要点
✔️ 检验大规模多任务学习对自然语言处理模型的影响
✔️ 提出EXMIX，一个多样化的任务集
✔️ 提议的EXT5模型结合了有监督的多任务预训练和自我监督的预训练。

ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning
written by Vamsi Aribandi, Yi Tay, Tal Schuster, Jinfeng Rao, Huaixiu Steven Zheng, Sanket Vaibhav Mehta, Honglei Zhuang, Vinh Q. Tran, Dara Bahri, Jianmo Ni, Jai Gupta, Kai Hui, Sebastian Ruder, Donald Metzler
authors' websites ： Vamsi, Yi, and Donald
(Submitted on 22 Nov 2021 (v1), last revised 29 Jan 2022 (this version, v2))
Comments: ICLR 2022
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍。

目前，多任务和迁移学习已经成功地应用于自然语言处理，但在预训练中，任务对模型性能的影响还不清楚。

例如，在预训练期间，更多的任务会改善下游任务的表现吗？　或者说，为了在特定的下游任务中取得有效的表现，需要精心选择预培训的任务吗？

在本文中，我们通过介绍EXMIX（EXtreme MIXture）来解决这些问题，EXMIX由107个有监督的自然语言处理任务组成，对多任务预训练的有效性进行了各种调查。它还提出了一个基于EXMIX的模型，即EXT5，它在各种任务上显示出比T5更优越的性能。

关于EXMIX

本文的一个重要目标是研究多任务预先学习中任务数量和其他因素的影响。

为此，我们引入了一个名为EXMIX（EXtreme MIXture）的集合，由107个不同的英语NLP任务组成，总共有18M个例子。具体情况见下表。

下图按升序显示每个数据集的大小，从EXMIX采样时，每个数据集大小的采样率是确定的。

请注意，为了平衡数据集的大小，采样率的上限是3×10^5美元的例子。

在下面的章节中，利用这个EXMIX进行了各种多任务学习的实验。

多任务学习的多样化实验。

多任务转移学习中EXMIX任务之间的关系。

首先，EXMIX被用来研究多任务预训练中任务和下游任务的影响。

最终目标是解决以下问题：是否有一些任务会对下游任务的表现产生负面影响（在多任务预训练期间不应包括在内），以及EXMIX中是否有一些任务集对获得更好的表征有用？尽管如此，由于在预学习和过渡学习期间对所有的任务集组合进行实验是不现实的，本文通过各种实验来解决这些问题。

最初，从EXMIX的任务中创建了八个任务族，以研究过渡学习过程中任务族之间的关系。

然后测试在与其他任务族同时训练时，一个任务族的表现是改善还是退化。目前，这些任务家族如下。

因此，对于8个任务族，每个任务族包括3个有代表性的数据集，选择一对任务族，对其中的6个数据集建立预训练模型的微调模型，并对其性能进行研究。

任务-家庭对的采样率被设定为1:1，这导致了总共200k步的微调。结果如下。

表中$i$行和$j$列的条目显示了在$i,j$任务族对过渡中训练的模型在$j$任务族中的平均性能。

最右边一栏显示，当一个任务族与另一个任务族同时训练时，性能提高了多少。

对角线（在单一任务系列上训练时）性能显示为100k步（恒定数据预算）和200k步（恒定计算预算）。实验结果表明，虽然某些任务-家庭对可能会提高性能（例如，NLI和其他联合学习往往会提高性能），但总体性能通常较低。

具体来说，我们发现在相同的数据预算下，21/56个案例的性能更差，在相同的计算预算下，38/56个案例的性能更差，相比之下，在单一任务族上的训练。我们还发现，任务族之间存在着不同的关系，摘要（SUM）任务族往往会降低其他任务族的表现。

此外，对于单一任务族中的三个数据集，其相关关系如下。

如图所示，我们发现，虽然总体上观察到了正相关，但在某些情况下，即使属于同一任务系列，也观察到了负相关的情况。这些结果表明，在预训练的模型上进行多任务转移学习并不总是能提高性能。

多任务转移学习和多任务先前学习之间的关系。

接下来，我们考虑在上述实验中观察到的微调期间任务之间的关系是否可以用来探索多任务预训练中的有效任务集。在之前的实验中，我们发现一些任务族，例如NLI和CMNS，在与其他任务族同时训练时，有助于提高性能（见表中最右边一栏）。

在此，选择了48个被归类为NLI、CMNS、CLS和CBWA的任务，并在这些任务被用于预训练时进行了实验，这些任务的性能得到了提高。结果如下。

实验结果在表中显示为最佳努力，但与随机选择的任务（随机-55）或EXMIX（所有任务）的平均值相比，它们并不理想。

因此，建议多任务转移学习和多任务预训练是两个独立的问题，如果在预训练期间包括更多不同的任务，即使多任务转移学习有负面影响，也能获得更好的结果。

多任务预学习与预微调

还有一种方法叫做预调谐，它利用多任务学习作为预调谐和微调谐之间的中间步骤。

我们现在考虑用EXMIX进行预调谐，然后用SuperGLUE进行微调的情况，基于标准的预研究的T5检查点。结果如下。

结果显示，基于整体的计算复杂性，多任务预训练明显更好（计算：表中处理的标记的层数）。

关于混合标记数据与自我监督的预训练

然后，我们对标记数据EXMIX与T5模型自监督预训练中使用的Colossal Clean Crawled Corpus（C4）混合的性能进行了实验。结果如下。

图中显示了EXT5模型（详见后面章节）在EXMIX中C4样本包含R倍的情况下，改变超参数R的结果。

这里，R→∞的结果只有C4（图中虚线），R=0的结果只有EXMIX。总的来说，结果显示，混合EXMIX和自我监督的预训练在某些情况下可能会提高性能。

然而，当R=0时，性能明显变差，这也显示了自我监督学习的重要性。

在预训练期间，更多的任务数量是否能提高绩效？

接下来，我们研究了在多任务预训练期间，模型性能随任务数量的变化而变化的程度。

下面是用30、55和80个随机任务进行预训练和用SuperGLUE进行微调时（3个随机种子）的平均性能。

结果显示，对于较大的批次规模，任务数量越多，结果越好。

然而，当批量小的时候，这种情况就不太可能发生了。(这可能是由于多任务学习可能是有噪音的，而在小批量的情况下则不是这样的）。

EXMIX提高了采样效率

还将对EXMIX预研究的样本效率进行调查。

这里，研究了除SuperGLUE以外的EXMIX的200k步预调的结果，在预调中间对SuperGLUE进行了微调。

那么EXT5和T5的比较结果如下。

如图所示，与自我监督的预训练相比，大规模多任务学习导致了采样效率的提高。

EXT5模型

最后，我们讨论了EXT5模型，该模型以T5模型为基础，将多任务学习与EXMIX相结合。

在对EXT5模型进行预训练时，我们将EXMIX和C4（Colossal Clean Crawled Corpus）结合起来，前者是有标签的数据（如前面的实验所讨论的），后者是用于T5模型的自我监督预训练。控制超参数$R$，使C4样本包括$R$倍的EXMIX。

预调期间的总步数与T5模型相同。在微调期间，学习率也被设定为10^{-4}$（T5为10^{-3}$）。

EXT5实验装置。

对包括在EXMIX中的任务和不包括的任务都进行了实验。

对于前者，目的是研究预训练任务的极端数量对任务表现的好处，而后者则是测量未知任务的概括表现。

实验结果

首先，EXMIX内任务的结果如下

一般来说，EXT5显示的结果等于或优于T5。

不包括在EXMIX内的任务的结果也显示在下面。

实验结果表明，EXT5在所有任务中都优于T5。这也是NER和机器翻译任务的情况，EXMIX没有类似的数据集。

摘要

这篇文章介绍了关于多任务学习的各种实验的论文。

论文介绍了EXMIX，一个多样化的任务集，以及基于它的EXT5模型，并进行了各种实验，包括一个关于多任务预训练中任务数量的大小如何提高性能的实验。

还为EXT5模型提出了有监督的多任务学习与自我监督的预训练相结合的方法，其表现更好，表明大规模多任务预训练可以提高下游任务的性能。

与本文相关的类别

anonymous