效能变压器独家标杆 "远距离区域 "现已上市!

Transformer 25/02/2021

三个要点
✔️ 提出的"长距离竞技场"基准，用于高效变压器
✔️ 涵盖各种模式下由长序列组成的任务。
✔️ 比较和验证过去提出的各种模型中的10种。

High-Performance Large-Scale Image Recognition Without Normalization
written by Andrew Brock, Soham De, Samuel L. Smith, Karen Simonyan
(Submitted on 11 Feb 2021)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Machine Learning (stat.ML)

首先

在使用Transformer（尤其是长序列）的过程中，Self-Attention的计算复杂性是一大挑战。在之前的总结中（1 ,2 ,3），我们讨论了很多降低Transformer计算复杂度的研究实例。

然而，正如你在上述系列文章中所看到的那样，没有一个基准来比较这些方法对变形金刚的改进。因此，即使提出了各种改进措施，但实际使用中的重要信息，如各车型的特点、性能、效果等都是缺失的。

为了提供这些重要的信息，本文介绍了"长程竞技场"，这是一个评价改进型变压器方法（Efficient Transformers）的基准。

这个基准包括各种模式的任务，长序列从1000到16000个代币。我们还介绍了这一基准对前几篇文章所介绍的各种模型中的10个有代表性的模型所做的比较和评价的结果。

Long-Range Arena(LRA)

作为对各种变压器进行基准测试的理想属性，LRA旨在满足以下六个要求（Desiderata）。

通用性：任务应该是所有的高效变压器模型都能适用的任务（即仅靠编码就能完成任务）。
简洁性：任务要简单，要消除使模型难以比较的因素（包括先前的学习）。
挑战性：任务必须对当前的模型有足够的挑战性。
长输入：输入序列应合理地长，以便评估它是否能捕捉到长距离的依赖性。
探究不同的方面：一系列的任务，能够评价一个模型的各种能力。
非资源密集型和可获得性：不需要大量的计算资源。

下一节将介绍LRA中包含的六项任务。

1.LONG LISTOPS

这个任务的重点是捕捉输入序列中长程依赖性的能力。它是标准ListOps任务的一个更大的序列长度版本，旨在调查神经网络模型的分析能力。下面是一个任务示例。

因此，它由括号和运算符(MAX、MEAN、MEDIAN、SUM_MOD)围成的层次结构组成。序列长度最多为2K$。

这是一个10路分类任务，输出可以是0到9中的任何一个，这是一个相当具有挑战性的任务，因为它需要知道所有输入序列的标记和逻辑结构。

2.BYTE-LEVEL TEXT CLASSIFICATION

这个任务不同于普通的文本分类（其中给定一个单词序列等作为输入），它是一个字节/字符级的文本分类任务。字节级的设置与逐个字符的语言建模也有很大不同。

例如，在逐字语言建模中，给定单词"appl"，我们可能会期望它后面有一个"e"。而字节级的文本分类则是一项更为艰巨的任务，不是简单的捕捉附近的上下文就能解决的。

对于数据集，我们使用IMDb评论，这是一个常用的文本分类基准，最大序列长度为4K。它是一个二元分类任务，准确率是作为衡量标准获得的。

3.BYTE-LEVEL DOCUMENT RETRIEVAL

这个任务要求两个文档在字节/字符级别上的相似度得分，类似于文本分类。它的目的是衡量压缩长序列的能力，并获得适合基于相似性匹配的表示。

我们使用ACL文集网络（AAN）作为我们的数据集。两个文档的序列长度都是4K，文本的总长度是8K。这是一个二进制分类任务，并获得准确率作为衡量标准。

4.IMAGE CLASSIFICATION ON SEQUENCES OF PIXELS

该任务是将$N×N$图像转换为长度为$N^2$的像素序列的图像分类任务。它侧重于从一维像素序列学习二维图像空间中的关系的能力（不允许使用CNN等附加模块）。

为了简单起见，将输入图像转换为每像素8位的灰度图像，并使用CIFAR-10作为数据集。

5.PATHFINDER (LONG-RANGE SPATIAL DEPENDENCY)

PATHFINDER任务用于学习长距离的空间依赖性。该任务判断两点是否由虚线连接，如下图所示。

图像被视为像素的序列。在这个任务中，图像是$32x32$，序列长度是1024。

6.PATHFINDER-X (LONG-RANGE SPATIAL DEPENDENCIES WITH EXTREME LENGTHS)

这是上述PATHFINDER任务的一个版本，序列长度为16K（$128×128$图像）。虽然与正常（1024序列长度）的情况相比，序列长度明显增加，但任务本身并无明显差异。这个任务的目的是看单纯增加序列长度时，解题难度是否有明显变化。

所需关注度

LRA基准的主要目标是评估Efficient Transformer模型捕捉长程依赖性的能力。在这里，通过定义一个叫做所需注意力跨度的度量，我们定量地估计了每个任务需要捕捉的长程依赖性。

换句话说，它表明了对模型解决任务所需的长期依赖性的把握能力程度。(这个度量是在给定一个训练好的模型和一组标记作为输入的情况下，通过将query和attended标记之间的平均距离按attention权重缩放得到的。)

通过该指标对各任务进行比较的结果如下图所示。

这个度量的大小表明，模型需要有很强的捕捉远程依赖性的能力，而不是能够充分处理局部信息。

实验

模型

实验中评价的模型如下。

关于这些模型的解释，请参见前面的解释文章（1 、2 、3）。

任务性能比较

在长距离竞技场基准测试中，各种架构的结果如下。

(虽然实验已经尽可能公正地进行了评价，但不同模型的最优超参数可能会有差异等，并不能准确判断哪种模型是最好的)。

关于ListOps的结果

对于ListOps任务，最佳模型的准确率为37%，说明这是一个相当困难的任务。由于这个任务是10个值的分类任务，如果是完全随机的，准确率会达到10%，也就是说模型能够小范围的学习这个任务。由于ListOps是分层数据，这可能表明该模型有能力处理分层结构。

例如，基于内核的模型（如Performer、Linear Transformers）性能较低，可能不适合处理分层结构。

关于文本分类的结果

与ListOps相比，他们看到基于内核的模型表现更好。可以认为，这是模型的方向性造成的。

关于检索结果

事实证明，这是一项艰巨的任务，即使是最好的模型也只能达到不到60%的性能。

表现最好的模型是稀疏变换器和BigBird，由固定注意模式组成的模型显示出相对较好的结果，低阶因子化和基于内核的模型显示出相对较差的结果。

关于图像分类的结果

总的来说，在这项任务中，不同模型的性能差异很小。Linformer和Reformer相对较差，而Sparse Transformer和Performer相对较好。

也有人观察到，在这个任务中，对训练集的过度拟合发生了，使得在测试集上很难归纳。

关于Pathfinder/Path-X的结果

对于普通的探路者任务，所有车型都取得了一定的成绩。平均性能为72，基于内核的模型（Performer和Linear Transformer）表现尤为出色。对于序列长度非常大的Path-X，所有模型都无法学习（约50%，与随机性能相同）。尽管任务与探路者基本相同，但我们发现，随着序列长度的增加，任务解决的难度明显增加。

效率比较

接下来，作为各模型效率的比较，不同序列长度的训练执行时间和内存使用情况如下图所示。

该基准在4x4 TPU V3芯片上运行，并显示了32个批次大小的每秒步数（排名可能会根据运行它的硬件而改变）。

关于训练速度

特别快的是低阶因子化和基于内核的模型，最快的模型是Performer。尤其是当序列长度为4K时，它的速度是普通变形金刚的5.7倍。

在所有序列长度上，改革者也始终比普通变压器慢。

关于内存使用

内存使用率最低的是Linformer，4K的序列长度减少到普通Transformer的10%左右（9.48GB->0.99GB）。除了速度之外，基于内核的模型（Performer和Linear Transformer）也比较好。

我们还可以看到，Linformer和Performer并没有随着序列长度的增加而显著增加内存使用量。

总体结果(通用架构尚不存在)

从所有任务的平均表现来看，表现最好的是BigBird，它在所有任务中始终表现良好。基于内核的模型(Performer和Linear Transformer)由于在ListOps任务上的表现较差，所以整体平均值较低。

在下图中，显示了分数（y轴）、模型速度（x轴）和内存占用（圆圈大小）之间的权衡。

从这张图可以看出，BigBird虽然在性能上更胜一筹，但在速度上和普通变形金刚几乎一样。基于内核的模型（Performer和Linear Transformer）表现出一定的性能和良好的速度。正如在个别任务结果中所解释的那样，基于内核的模型并不适合处理层次结构，每个模型都有自己的特点和特征。

因此速度是否重要，性能是否重要，内存占用是否重要，我们要解决什么样的任务等等，合适的模型取决于假设的条件（至少目前是这样），可以说还没有一个通用的模型。可能是