赶上最新的AI论文

效能变压器独家标杆 "远距离区域 "现已上市!

Transformer

三个要点
✔️ 提出的"长距离竞技场"基准,用于高效变压器
✔️ 涵盖各种模式下由长序列组成的任务。

✔️ 比较和验证过去提出的各种模型中的10种。

High-Performance Large-Scale Image Recognition Without Normalization
written by Andrew BrockSoham DeSamuel L. SmithKaren Simonyan
(Submitted on 11 Feb 2021)
Comments: Accepted to arXiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Machine Learning (stat.ML)
    

首先

在使用Transformer(尤其是长序列)的过程中,Self-Attention的计算复杂性是一大挑战。在之前的总结中(1,2,3),我们讨论了很多降低Transformer计算复杂度的研究实例。

然而,正如你在上述系列文章中所看到的那样,没有一个基准来比较这些方法对变形金刚的改进。因此,即使提出了各种改进措施,但实际使用中的重要信息,如各车型的特点、性能、效果等都是缺失的。

为了提供这些重要的信息,本文介绍了"长程竞技场",这是一个评价改进型变压器方法(Efficient Transformers)的基准。

这个基准包括各种模式的任务,长序列从1000到16000个代币。我们还介绍了这一基准对前几篇文章所介绍的各种模型中的10个有代表性的模型所做的比较和评价的结果。

Long-Range Arena(LRA)

作为对各种变压器进行基准测试的理想属性,LRA旨在满足以下六个要求(Desiderata)。

  1. 通用性:任务应该是所有的高效变压器模型都能适用的任务(即仅靠编码就能完成任务)。
  2. 简洁性:任务要简单,要消除使模型难以比较的因素(包括先前的学习)。
  3. 挑战性:任务必须对当前的模型有足够的挑战性。
  4. 长输入:输入序列应合理地长,以便评估它是否能捕捉到长距离的依赖性。
  5. 探究不同的方面:一系列的任务,能够评价一个模型的各种能力。
  6. 非资源密集型和可获得性:不需要大量的计算资源。

下一节将介绍LRA中包含的六项任务。

1.LONG LISTOPS

这个任务的重点是捕捉输入序列中长程依赖性的能力。它是标准ListOps任务的一个更大的序列长度版本,旨在调查神经网络模型的分析能力。下面是一个任务示例。

因此,它由括号和运算符(MAX、MEAN、MEDIAN、SUM_MOD)围成的层次结构组成。序列长度最多为2K$。

这是一个10路分类任务,输出可以是0到9中的任何一个,这是一个相当具有挑战性的任务,因为它需要知道所有输入序列的标记和逻辑结构。

2.BYTE-LEVEL TEXT CLASSIFICATION

这个任务不同于普通的文本分类(其中给定一个单词序列等作为输入),它是一个字节/字符级的文本分类任务。字节级的设置与逐个字符的语言建模也有很大不同。

例如,在逐字语言建模中,给定单词"appl",我们可能会期望它后面有一个"e"。而字节级的文本分类则是一项更为艰巨的任务,不是简单的捕捉附近的上下文就能解决的。

对于数据集,我们使用IMDb评论,这是一个常用的文本分类基准,最大序列长度为4K。它是一个二元分类任务,准确率是作为衡量标准获得的。

3.BYTE-LEVEL DOCUMENT RETRIEVAL

这个任务要求两个文档在字节/字符级别上的相似度得分,类似于文本分类。它的目的是衡量压缩长序列的能力,并获得适合基于相似性匹配的表示。

我们使用ACL文集网络(AAN)作为我们的数据集。两个文档的序列长度都是4K,文本的总长度是8K。这是一个二进制分类任务,并获得准确率作为衡量标准。

4.IMAGE CLASSIFICATION ON SEQUENCES OF PIXELS

该任务是将$N×N$图像转换为长度为$N^2$的像素序列的图像分类任务。它侧重于从一维像素序列学习二维图像空间中的关系的能力(不允许使用CNN等附加模块)。

为了简单起见,将输入图像转换为每像素8位的灰度图像,并使用CIFAR-10作为数据集。

5.PATHFINDER (LONG-RANGE SPATIAL DEPENDENCY)

PATHFINDER任务用于学习长距离的空间依赖性。该任务判断两点是否由虚线连接,如下图所示。

图像被视为像素的序列。在这个任务中,图像是$32x32$,序列长度是1024。

6.PATHFINDER-X (LONG-RANGE SPATIAL DEPENDENCIES WITH EXTREME LENGTHS)

这是上述PATHFINDER任务的一个版本,序列长度为16K($128×128$图像)。虽然与正常(1024序列长度)的情况相比,序列长度明显增加,但任务本身并无明显差异。这个任务的目的是看单纯增加序列长度时,解题难度是否有明显变化。

所需关注度

LRA基准的主要目标是评估Efficient Transformer模型捕捉长程依赖性的能力。在这里,通过定义一个叫做所需注意力跨度的度量,我们定量地估计了每个任务需要捕捉的长程依赖性。

换句话说,它表明了对模型解决任务所需的长期依赖性的把握能力程度。(这个度量是在给定一个训练好的模型和一组标记作为输入的情况下,通过将query和attended标记之间的平均距离按attention权重缩放得到的。)

通过该指标对各任务进行比较的结果如下图所示。

 

这个度量的大小表明,模型需要有很强的捕捉远程依赖性的能力,而不是能够充分处理局部信息。

实验

模型

实验中评价的模型如下。

关于这些模型的解释,请参见前面的解释文章(1、2、3)。

任务性能比较

在长距离竞技场基准测试中,各种架构的结果如下。

(虽然实验已经尽可能公正地进行了评价,但不同模型的最优超参数可能会有差异等,并不能准确判断哪种模型是最好的)。

关于ListOps的结果

对于ListOps任务,最佳模型的准确率为37%,说明这是一个相当困难的任务。由于这个任务是10个值的分类任务,如果是完全随机的,准确率会达到10%,也就是说模型能够小范围的学习这个任务。 由于ListOps是分层数据,这可能表明该模型有能力处理分层结构

例如,基于内核的模型(如Performer、Linear Transformers)性能较低,可能不适合处理分层结构。

关于文本分类的结果

与ListOps相比,他们看到基于内核的模型表现更好。可以认为,这是模型的方向性造成的。

关于检索结果

事实证明,这是一项艰巨的任务,即使是最好的模型也只能达到不到60%的性能。

表现最好的模型是稀疏变换器和BigBird,由固定注意模式组成的模型显示出相对较好的结果,低阶因子化和基于内核的模型显示出相对较差的结果。

关于图像分类的结果

总的来说,在这项任务中,不同模型的性能差异很小。Linformer和Reformer相对较差,而Sparse Transformer和Performer相对较好。

也有人观察到,在这个任务中,对训练集的过度拟合发生了,使得在测试集上很难归纳。

关于Pathfinder/Path-X的结果

对于普通的探路者任务,所有车型都取得了一定的成绩。平均性能为72,基于内核的模型(Performer和Linear Transformer)表现尤为出色。对于序列长度非常大的Path-X,所有模型都无法学习(约50%,与随机性能相同)。尽管任务与探路者基本相同,但我们发现,随着序列长度的增加,任务解决的难度明显增加

效率比较

接下来,作为各模型效率的比较,不同序列长度的训练执行时间和内存使用情况如下图所示。

 

该基准在4x4 TPU V3芯片上运行,并显示了32个批次大小的每秒步数(排名可能会根据运行它的硬件而改变)。

关于训练速度

特别快的是低阶因子化和基于内核的模型,最快的模型是Performer。尤其是当序列长度为4K时,它的速度是普通变形金刚的5.7倍

在所有序列长度上,改革者也始终比普通变压器慢。

关于内存使用

内存使用率最低的是Linformer,4K的序列长度减少到普通Transformer的10%左右(9.48GB->0.99GB)。除了速度之外,基于内核的模型(Performer和Linear Transformer)也比较好。

我们还可以看到,Linformer和Performer并没有随着序列长度的增加而显著增加内存使用量。

总体结果(通用架构尚不存在)

从所有任务的平均表现来看,表现最好的是BigBird,它在所有任务中始终表现良好。基于内核的模型(Performer和Linear Transformer)由于在ListOps任务上的表现较差,所以整体平均值较低。

在下图中,显示了分数(y轴)、模型速度(x轴)和内存占用(圆圈大小)之间的权衡。

从这张图可以看出,BigBird虽然在性能上更胜一筹,但在速度上和普通变形金刚几乎一样。基于内核的模型(Performer和Linear Transformer)表现出一定的性能和良好的速度。 正如在个别任务结果中所解释的那样,基于内核的模型并不适合处理层次结构,每个模型都有自己的特点和特征

因此速度是否重要,性能是否重要,内存占用是否重要,我们要解决什么样的任务等等,合适的模型取决于假设的条件(至少目前是这样),可以说还没有一个通用的模型。可能是

摘要

在这篇文章中,我们提出了一个Efficient Transformer的基准,它包括跨各种模式的任务,如文本、数学和图像数据。通过这个基准,比较了各种Transformer模型,并展示了它们的特性和性能(速度/内存)。

总的来说,可以说以前不清楚的信息,如模型质量、速度、内存等方面发生的权衡,都以一种容易理解的方式呈现出来。

该基准最终将开源,并可能成为未来高效变压器研究的基石。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们