Transformerの成長は止まらない!Transformerの改善に関する研究のまとめ Part1
3つの要点
✔️ Transformerの改良版"Efficient Transformer"について
✔️ Efficient Transformerの大まかな区分について
✔️ Efficient Transformerの関連情報について
Efficient Transformers: A Survey
written by Yi Tay, Mostafa Dehghani, Dara Bahri, Donald Metzler
(Submitted on 14 Sep 2020 (v1), last revised 16 Sep 2020 (this version, v2))
Comments: Accepted at arXiv
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Information Retrieval (cs.IR)
はじめに
Attention is all you needにて提案されたTransformerは、BERTを始めとした自然言語処理における成功をはじめ、画像処理や強化学習においてもその有効性が示されています。これらの成功に反して、Transformerは未だ完璧であるとは言えません。
特に重大な課題は、Transformerの計算量です。
Transformerの計算量は入力シーケンス長の二乗に比例しており、学習時・推論時にかかるコスト、メモリ容量などに深刻な問題を抱えています。そのため、Transformerのアルゴリズムを改善した、より効率的なTransformer(Efficient Transformer)の研究が非常に盛んとなっています。
この研究領域について、本サイトでも過去にReformerやSynthesizerが取り上げられましたが、既に他にも多くのEfficient Transformerが提案されています。Efficient Transformerの進展はあまりにも高速であり、その全貌を掴むことが非常に困難となっているのです。
本記事ではこうした実情を鑑み、Transformerの改善についての包括的な解説を行います。
この記事ではEfficient Transformer全般にわたる説明を行い、次の記事(Part2,Part3(明後日公開))では個別のモデルについてのより具体的・詳細な解説を行います。
目次
1. Transformerの計算量について
Multi-Head Self-Attention
2. Efficient Transformerの分類
2.1. Fixed Patterns (FP)
Blockwise Patterns
Strided Patterns
Compressed Patterns
2.2. Combination of Patterns (CP)
2.3. Learnable Patterns (LP)
2.4. Memory
2.5. Low-Rank Methods
2.6. Kernels
2.7. Recurrence
3. Efficient Transformerの関連情報
3.1. 評価について
3.2. 様々な取り組みについて
Weight Sharing
Quantization / Mixed Precision
Knowledge Distillation / Pruning
Neural Architecture Search (NAS)
Task Adapters
4. Efficient Transformerの具体例(別記事で解説:Part2, Part3)
続きを読むには
(6725文字画像6枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー