最新AI論文をキャッチアップ

Transformerの成長は止まらない! Transformerの改善に関する研究のまとめ Part2

Transformerの成長は止まらない! Transformerの改善に関する研究のまとめ Part2

Transformer

3つの要点
✔️ Efficient Transformerのモデルの具体例について紹介
✔️ 固定パターン・グローバルメモリを利用した手法について解説
✔️ 最善で線形オーダーO(N)のAttentionを達成

Efficient Transformers: A Survey
written by 
Yi TayMostafa DehghaniDara BahriDonald Metzler
(Submitted on 14 Sep 2020 (v1), last revised 16 Sep 2020 (this version, v2))
Comments: Accepted at arXiv
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Information Retrieval (cs.IR)
 
  

はじめに

Transformerのアルゴリズムを改善した、より効率的なTransformer(Efficient Transformer)の研究が現在非常に盛んとなっています。この研究領域の進展はあまりに高速で、既に非常に多くのEfficient Transformerが提案されており、その全貌を掴むことが非常に困難となっています。

本記事ではこうした実情を鑑み、Transformerの改善についての包括的な解説を行います。

Efficient Transformer全般にわたる説明、大まかな分類などの基礎的な知識については、こちらの記事で紹介しています。

本記事では、過去に提案されたEfficient Transformerモデルのアーキテクチャや時間・空間計算量について、より具体的・詳細な解説を行います。この記事で紹介するのは、固定パターン(FP)、グローバルメモリ(M)、またはこれらの複合(FP+M)ベースのアプローチに分類されるモデルとなります。(4.1~4.4)

その他に分類されるモデルの解説は、こちらの記事(明日公開)をご覧ください。

目次

1. Transformerの計算量について(別記事で解説)
2. Efficient Transformerの分類(別記事で解説)
3. Efficient Transformerの関連情報(別記事で解説)
4. Efficient Transformerの具体例
  4.1. 固定パターンベース(FP)
  ・Memory Compressed Transformer
  ・Memory-compressed Attention
  ・Local Attention Span
    ・Image Transformer

  4.2. グローバルメモリベース(M)
   ・Set Transformers
  4.3. 固定パターンの複合ベース(Combinations of FP)
   ・Sparse Transformers
   ・Axial Transformers
  4.4. 固定パターンの複合・グローバルメモリベース(FP+M)
   ・Longformer
   ・ETC
   ・BigBird
  4.5. 学習可能パターンベース(LP)(別記事で解説)
   ・Routing Transformers
   ・Reformer
   ・Sinkhorn Transformers
  4.6. 低ランク因数分解ベース(LR)(別記事で解説)
   ・Linformer
   ・Synthesizers
  4.7. カーネルベース(KR)(別記事で解説)
   ・Performer
   ・Linear Transformers
  4.8. 再帰ベース(RC)(別記事で解説)
 ・Transformer-XL
   ・Compressive Transformers

続きを読むには

(6255文字画像12枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする