Transformer的发展势不可挡!　改进Transformer的研究总结第2篇

Transformer 23/12/2020

3个要点
✔️ Efficient Transformer模型的具体实例介绍。
✔️ 描述了一种使用固定模式全局内存的方法。
✔️ 最多达到线性阶O(N)的关注度

Efficient Transformers: A Survey
written by Yi Tay, Mostafa Dehghani, Dara Bahri, Donald Metzler
(Submitted on 14 Sep 2020 (v1), last revised 16 Sep 2020 (this version, v2))
Comments: Accepted at arXiv
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Information Retrieval (cs.IR)

首先

目前，在变压器算法上进行改进的更高效的变压器（Efficient Transformers）的研究非常活跃。这个研究领域的进展非常快，已经提出了这么多的高效变压器，要想把握全局是非常困难的。

根据这种情况，本文对Transformer的改进进行了全面的说明。

关于高效变压器的总体介绍、大致分类等基础知识，可以阅读本文。

本文对过去提出的高效变压器模型的体系结构和时空计算复杂性进行了较为具体和详细的描述。本文所介绍的模型可以分为基于固定模式（FP）、全局内存（M）或这些组合（FP+M）的方法。(4.1 - 4.4)

关于其他分类车型的解释，请看本文（明天发表）。

1. Transformer的计算复杂度(另文说明)
2. Efficient Transformer的分类(另文说明)
3. Efficient Transformer的相关信息(另文说明)
4. Efficient Transformer的具体shi li
  4.1. 固定模式(FP)
　・Memory Compressed Transformer
　・Memory-compressed Attention
　・Local Attention Span
・Image Transformer
  4.2. 全球内存(M)
・Set Transformers
  4.3. 固定模式的组合(Combinations of FP)
・Sparse Transformers
・Axial Transformers
  4.4. 固定模式的複合全球内存(FP+M)
・Longformer
・ETC
・BigBird
4.5. 可学习的模式基础(LP)(另一篇)
・Routing Transformers
・Reformer
・Sinkhorn Transformers
4.6. 基于低阶因子化(LR)(另一篇)
・Linformer
・Synthesizers
4.7. 基于内核的(KR)(另一篇)
・Performer
・Linear Transformers
4.8. 基于递归的(RC)(另一篇)
　・Transformer-XL
・Compressive Transformers