Transformer的发展势不可挡!Transformer改进研究总结Part1
三个要点
✔️关于改进版的变形金刚"高效变形金刚"。
✔️关于高效变压器的一般分类。
✔️ 关于 关于高效变压器的相关信息
Efficient Transformers: A Survey
written by Yi Tay, Mostafa Dehghani, Dara Bahri, Donald Metzler
(Submitted on 14 Sep 2020 (v1), last revised 16 Sep 2020 (this version, v2))
Comments: Accepted at arXiv
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Information Retrieval (cs.IR)![]()
![]()
首先
你只需要注意在3.1节中提出的Transformer在自然语言处理(包括BERT),以及图像处理和强化学习中都取得了成功。尽管取得了这些成功,但《变形金刚》仍不完美。
一个特别重大的挑战是变压器的计算复杂性。
Transformer的计算复杂度与输入序列长度的平方成正比,这在训练和推理过程中带来了严重的成本和内存需求问题。为此,改进变压器算法的更高效变压器(Efficient Transformers)的研究变得非常流行。
在这个研究领域,过去本站已经讨论过Reformer和Synthesizer,还有很多其他的Efficient Transformers已经被提出。高效变形金刚的进步速度非常快,很难把握其全貌。
根据这种情况,本文对Transformer的改进进行了全面说明。
在这篇文章中,我们将对高效变压器进行总体说明,在接下来的文章中(第二部分、第三部分(后天出版)),我们将对各个型号的产品进行更具体、更详细的说明。
目录
1. Transformer的计算量
Multi-Head Self-Attention
2. Efficient Transformer的分类
2.1. Fixed Patterns (FP)
Blockwise Patterns
Strided Patterns
Compressed Patterns
2.2. Combination of Patterns (CP)
2.3. Learnable Patterns (LP)
2.4. Memory
2.5. Low-Rank Methods
2.6. Kernels
2.7. Recurrence
3.1. 关于评价
3.2. 各种举措
Weight Sharing
Quantization / Mixed Precision
Knowledge Distillation / Pruning
Neural Architecture Search (NAS)
Task Adapters
4. Efficient Transformer具体实例(另文解释 Part2, Part3)
要阅读更多。
你需要在AI-SCHOLAR注册。
或与本文相关的类别