Transformerの成長は止まらない！Transformerの改善に関する研究のまとめ Part3

Transformer 2020年12月24日

3つの要点
✔️ Efficient Transformerのモデルの具体例について紹介
✔️ 学習可能パターン・低ランク因数分解・カーネル・再帰を利用した手法を解説
✔️ 最善で線形オーダーO(N)のAttentionを達成

Efficient Transformers: A Survey
written by Yi Tay, Mostafa Dehghani, Dara Bahri, Donald Metzler
(Submitted on 14 Sep 2020 (v1), last revised 16 Sep 2020 (this version, v2))
Comments: Accepted at arXiv
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Information Retrieval (cs.IR)

はじめに

Transformerのアルゴリズムを改善した、より効率的なTransformer(Efficient Transformer)の研究が現在非常に盛んとなっています。この研究領域の進展はあまりに高速で、既に非常に多くのEfficient Transformerが提案されており、その全貌を掴むことが非常に困難となっています。本記事ではこうした実情を鑑み、
　
Transformerの改善についての包括的な解説を行います。Efficient Transformer全般にわたる説明、大まかな分類などの基礎的な知識については、こちらの記事で紹介しています。本記事では、過去に提案されたEfficient Transformerモデルのアーキテクチャや時間・空間計算量について、より具体的・詳細な解説を行います。

この記事で紹介するのは、学習可能パターン(LP)、低ランク因数分解(LR)、カーネル(KR)、再帰(RC)ベースのアプローチに分類されるモデルとなります。(4.5～4.8)

その他に分類されるモデルの解説は、こちらの記事をご覧ください。

4. Efficient Transformerの具体例
　4.1. 固定パターンベース(FP)(別記事で解説)
　　Memory Compressed Transformer
　　Image Transformer
　4.2. グローバルメモリベース(M)(別記事で解説)
　　Set Transformers
　4.3. 固定パターンの複合ベース(Combinations of FP)(別記事で解説)
　　Sparse Transformers
　　Axial Transformers
　4.4. 固定パターンの複合・グローバルメモリベース(FP+M)(別記事で解説)
　　Longformer
　　ETC
　　BigBird
　4.5. 学習可能パターンベース(LP)
　　Routing Transformers
　　Reformer
　　Sinkhorn Transformers
　4.6. 低ランク因数分解ベース(LR)
　 Linformer
　　Synthesizers
4.7. カーネルベース(KR)
　　Performer
　　Linear Transformers
　4.8. 再帰ベース(RC)　
　　Transformer-XL
　　Compressive Transformers