Transformerの成長は止まらない！Transformerの改善に関する研究のまとめ Part1

Transformer 2020年12月22日

3つの要点
✔️ Transformerの改良版"Efficient Transformer"について
✔️ Efficient Transformerの大まかな区分について
✔️ Efficient Transformerの関連情報について

Efficient Transformers: A Survey
written by Yi Tay, Mostafa Dehghani, Dara Bahri, Donald Metzler
(Submitted on 14 Sep 2020 (v1), last revised 16 Sep 2020 (this version, v2))
Comments: Accepted at arXiv
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Information Retrieval (cs.IR)

はじめに

Attention is all you needにて提案されたTransformerは、BERTを始めとした自然言語処理における成功をはじめ、画像処理や強化学習においてもその有効性が示されています。これらの成功に反して、Transformerは未だ完璧であるとは言えません。

特に重大な課題は、Transformerの計算量です。
Transformerの計算量は入力シーケンス長の二乗に比例しており、学習時・推論時にかかるコスト、メモリ容量などに深刻な問題を抱えています。そのため、Transformerのアルゴリズムを改善した、より効率的なTransformer(Efficient Transformer)の研究が非常に盛んとなっています。

この研究領域について、本サイトでも過去にReformerやSynthesizerが取り上げられましたが、既に他にも多くのEfficient Transformerが提案されています。Efficient Transformerの進展はあまりにも高速であり、その全貌を掴むことが非常に困難となっているのです。

本記事ではこうした実情を鑑み、Transformerの改善についての包括的な解説を行います。

この記事ではEfficient Transformer全般にわたる説明を行い、次の記事(Part2,Part3(明後日公開))では個別のモデルについてのより具体的・詳細な解説を行います。