赶上最新的AI论文

Transformer的发展势不可挡!Transformer改进研究总结Part1

Transformer

三个要点
✔️关于改进版的变形金刚"高效变形金刚"。
✔️关于高效变压器的一般分类。
✔️ 关于 关于高效变压器的相关信息

Efficient Transformers: A Survey
written by 
Yi TayMostafa DehghaniDara BahriDonald Metzler
(Submitted on 14 Sep 2020 (v1), last revised 16 Sep 2020 (this version, v2))
Comments: Accepted at arXiv
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Information Retrieval (cs.IR)
 
  

首先

你只需要注意在3.1节中提出的Transformer在自然语言处理(包括BERT),以及图像处理和强化学习中都取得了成功。尽管取得了这些成功,但《变形金刚》仍不完美。

一个特别重大的挑战是变压器的计算复杂性。
Transformer的计算复杂度与输入序列长度的平方成正比,这在训练和推理过程中带来了严重的成本和内存需求问题。为此,改进变压器算法的更高效变压器(Efficient Transformers)的研究变得非常流行。

在这个研究领域,过去本站已经讨论过ReformerSynthesizer,还有很多其他的Efficient Transformers已经被提出。高效变形金刚的进步速度非常快,很难把握其全貌。

根据这种情况,本文对Transformer的改进进行了全面说明。

在这篇文章中,我们将对高效变压器进行总体说明,在接下来的文章中(第二部分、第三部分(后天出版)),我们将对各个型号的产品进行更具体、更详细的说明。

目录

1. Transformer的计算量
    Multi-Head Self-Attention

2. Efficient Transformer的分类
    2.1. Fixed Patterns (FP)
        Blockwise Patterns
        Strided Patterns
        Compressed Patterns
    2.2. Combination of Patterns (CP) 
    2.3. Learnable Patterns (LP)
    2.4. Memory
    2.5. Low-Rank Methods
    2.6. Kernels
    2.7. Recurrence

3. Efficient Transformer相关信息

    3.1. 关于评价
    3.2. 各种举措
        Weight Sharing
        Quantization / Mixed Precision
        Knowledge Distillation / Pruning
        Neural Architecture Search (NAS) 
        Task Adapters

4. Efficient Transformer具体实例(另文解释 Part2Part3) 

要阅读更多。

你需要在AI-SCHOLAR注册。

1分钟内免费轻松注册

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们