Attentionの定説が覆る!? SYNTHESIZERが教えてくれるAttentionの可能性と未来
3つの要点
✔️ Dot Product Attentionを用いないSYNTHESIZERというモデルを提案
✔️ Dot Product Attentionはタスクによっては悪影響を及ぼすことがあり、SYNTHESIZERと合わせることで性能向上が見込める
✔️ 今後よりAttention自体に関する研究が進む事を期待
SYNTHESIZER: Rethinking Self-Attention in Transformer Models
written by Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng
(Submitted on 2 May 2020)
Comments: Published by arXiv
Subjects: Computation and Language (cs.CL)
はじめに
Transformerによるモデルは、自然言語処理に限らず様々なタスクで優れた性能を発揮してきました。このTransformerモデルの中心に位置しているのは、Query-Key-Valueの組み合わせからなる、Dot-Product Attentionです。これは、Query, Keyの内積を取る形のAttentionで、self-attentionとしてよく使われるものです。しかし、Dot-ProductによるAttentionは時間計算量・空間計算量 $O(l^2 * d)$ ($l$は系列の長さ、$d$は単語埋め込みなどトークンごとのベクトルの次元数) と計算コストが高く、Transformerの訓練をする上でのボトルネックの一つとなっていました。このself-attentionの計算量をLocality-Sensitive-Hashingという手法を用いてSoftMax$O(l * d * \log(l))$まで削減したReformerというより効率的なモデルも提案されています。Reformerに関しては「Transformer大規模化へのブレークスルーとなるか!? 高効率化したReformer登場」にて扱っているので、是非こちらの記事もご覧ください。
今回は、今まで深く考察されてこなかった内積ベースのself-attentionに対して行われた調査と、Dot-Product Attentionを用いず、より少ないパラメータ数と計算コストで従来のTransformerと同等の性能を発揮できるSYNTHESIZERというモデルを紹介します。また、SYNTHESIZERと従来のDot-ProductベースのTransformerを比較し、その特徴や、そこから得られた知見もご紹介します。
続きを読むには
(14261文字画像12枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー