Transformer的发展势不可挡！Transformer改进研究总结 Part3

Transformer 24/12/2020

3个要点：
✔️高效变压器模型的具体实例介绍。
✔️ 解释使用可学习模式、低阶因子化、内核和递归的方法。
✔️达到线性顺序O(N)的注意力最好。

高效变压器。调查
笔者 Yi Tay,Mostafa Dehghani,Dara Bahri,Donald Metzler
(2020年9月14日提交(v1)，2020年9月16日最后一次修订(本版，v2))
评论：已被arXiv接受
学科。机器学习(cs.LG)；人工智能(cs.AI)；计算和语言(cs.CL)；计算机视觉和模式识别(cs.CV)；信息检索(cs.IR)

首先

通过改进变压器的算法，研究更高效的变压器(Efficient Transformers)，现在非常活跃。这个研究领域的进展非常快，已经有很多高效变压器被提出来了，要想掌握全局是非常困难的。在本文中，我们考虑到这一现实情况，为
。
根据这种情况，本文对高效变压器的改进进行了全面的说明。关于高效变压器的总体介绍、大致分类等基础知识，可以在本文中找到。在本文中，我们将对过去提出的高效变压器模型的架构和时间/空间计算复杂度进行更具体、更详细的解释。

本文介绍的模型将分为基于可学习模式(LP)、低秩因子化(LR)、内核(KR)和递归(RC)的方法。(4.5 - 4.8)

关于其他分类车型的解释，请看本文。

4.高效变压器的具体实例
　4.1.基于固定模式(FP)(在另一条中解释)
　　内存压缩变压器
　　图像变换器
　4.2.基于全局内存(M)(在另一篇文章中解释)
　　集变形金刚
　4.3.FP的组合(在另一条中解释)
　　稀疏的变形金刚
　　轴向变压器
　4.4.固定模式和全局记忆库(FP+M)的组合(在另一篇文章中描述)
　　长方体
　　ETC
　　大鸟
　4.5.基于可学习模式(LP)
　　路由变压器
　　改革者
　　沉角变形金刚
　4.6.基于低秩因式化（LR）的方法。
　 Linformer
　　合成器
4.7.基于内核(KR)
　　表演者
　　线性变压器
　4.8.基于递归(RC)
　　Transformer-XL
　　抗压变压器