Efficient Transformer専用ベンチマーク「Long Range Area」登場！

Transformer 2021年02月25日

3つの要点
✔️ Efficient Transformerのベンチマーク「Long Range Arena」の提案
✔️ 様々なモダリティにわたる、長いシーケンスからなるタスクを網羅
✔️ 過去に提案された様々なモデルの内、10種類を比較・検証

High-Performance Large-Scale Image Recognition Without Normalization
written by Andrew Brock, Soham De, Samuel L. Smith, Karen Simonyan
(Submitted on 11 Feb 2021)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Machine Learning (stat.ML)

はじめに

Self-Attentionにおける計算量は、Transformerの(特に長いシーケンスに対する)利用における大きな課題となっています。以前のまとめ記事(1,2,3)において、こうしたTransformerの計算量を削減するための研究例について多く取り上げました。

しかしながら、前述した一連の記事においても分かる通り、こうしたTransformerを改善した手法について、それらを比較するベンチマークが存在していませんでした。そのため、様々な改善策が提案されてはいても、それぞれのモデルの特徴・性質・有効性など、実際に利用するために重要な情報が欠落していました。

本記事ではこうした重要な情報を提供するため、Transformerを改善した手法(Efficient Transformer)を評価するためのベンチマーク、"Long Range Arena"について紹介します。

このベンチマークには、1,000から16,000トークンに及ぶ長いシーケンスを持つ、様々なモダリティをもつタスクが含まれています。さらに、過去記事でも紹介した様々なモデルのうち、代表的な10個のモデルについて、このベンチマークにより行われた比較・評価の結果についても紹介します。

Long-Range Arena(LRA)

様々なTransformerのベンチマークとして望ましい性質として、LRAは以下の六つの要求(Desiderata)を満たすことを目標としています。

Generality：全てのEfficient Transformerモデルが適用可能なタスクであること(エンコーディングのみで達成できるタスクであること)。
Simplicity：タスクはシンプルであり、モデルの比較が困難になる要素は排除すること(事前学習も含めて)。
Challenging：現在のモデルにとって十分に困難なタスクであること。
Long inputs：長距離依存性を捉えることができるかどうかを評価するため、入力シーケンスは適度に長いものであること。
Probing diverse aspects：一連のタスクは、モデルの様々な能力を評価することができること。
Non-resource intensive and accessible：多くの計算資源を要求するものではないこと。

次に、LRAに含まれる六つのタスクについて解説します。

1.LONG LISTOPS

このタスクは、入力シーケンスの長距離依存関係を捉える能力に焦点を置いています。これは、標準的なListOpsタスク()のシーケンス長を大きくしたものであり、ニューラルネットワークモデルの解析能力の調査のために設計されています。タスク例は以下の通りです。

このように、括弧で囲まれた階層構造や演算子(MAX,MEAN,MEDIAN,SUM_MOD)で構成されています。シーケンス長は$2K$までとなっています。

出力は0～9のどれかとなる10通りの分類タスクであり、入力シーケンス全てのトークンや論理構造を把握する必要があり、かなり難易度が高いタスクです。

2.BYTE-LEVEL TEXT CLASSIFICATION

このタスクは、通常の(単語等からなるシーケンスが入力として与えられる)テキスト分類と異なり、バイト/文字レベルでのテキスト分類タスクとなります。バイトレベル設定は、文字単位の言語モデリングとも大きく異なります。

例えば文字単位の言語モデリングでは、"appl"が与えられたとき、その後に"e"が続くと予測することができるでしょう。一方バイトレベルでのテキスト分類では、近くの文脈のみを捉えるだけでは解決できず、非常に困難なタスクとなります。

データセットには、テキスト分類ベンチマークとして一般的に用いられるIMDb reviewsを利用しており、シーケンス長は最大4Kです。これはバイナリ分類タスクであり、精度が指標として得られます。

3.BYTE-LEVEL DOCUMENT RETRIEVAL

このタスクは、テキスト分類と同じくバイト/文字レベルで、二つのドキュメントの類似度スコアを求めます。これは、長いシーケンスを圧縮し、類似性に基づくマッチングに適した表現を獲得できる能力の測定を目的としています。

データセットにはACL Anthology Network(AAN)を利用しています。二つの文書のシーケンス長はどちらも4Kであり、テキストの合計長は8Kとなります。これはバイナリ分類タスクであり、精度が指標として得られます。

4.IMAGE CLASSIFICATION ON SEQUENCES OF PIXELS

このタスクでは、$N×N$の画像を、長さ$N^2$のピクセルのシーケンスに変換した場合の画像分類タスクとなります。これは、一次元ピクセルシーケンスから、二次元画像空間における関係を学習する能力に焦点を置いています(CNNのようなモジュールを追加で利用することは許可されていません)。

簡単のため、入力画像は各ピクセル8ビットのグレースケールに変換されており、データセットにはCIFAR-10が用いられます。

5.PATHFINDER (LONG-RANGE SPATIAL DEPENDENCY)

PATHFINDERタスクは、長距離空間依存性を学習するためのタスクとなります。このタスクは以下の図で示される通り、二つの点が破線で繋がっているかどうかを判別します。

画像はピクセルのシーケンスとして扱われます。このタスクでは、画像は$32×32$であり、シーケンス長は1024となります。

6.PATHFINDER-X (LONG-RANGE SPATIAL DEPENDENCIES WITH EXTREME LENGTHS)

前述したPATHFINDERタスクのシーケンス長を16K($128×128$の画像)としたバージョンとなります。通常の(シーケンス長が1024)の場合と比べてシーケンス長が著しく増大していますが、タスク自体に大きな違いはありません。このタスクは、シーケンス長が単に増大しただけでも、タスク解決の難易度が大きく変わるかどうかを確認するためのものとなります。

Required Attention Span

LRAベンチマークの主な目標は、Efficient Transformerモデルが長距離依存性を把握できる能力を評価することです。ここで、required attention spanと呼ばれる指標を定義することで、それぞれのタスクで把握する必要のある長距離依存性を定量的に推定します。

つまり、そのタスクの解決するために、モデルに要求される長距離依存性の把握能力の度合いを示していると言えます。(この指標は、学習済みのモデルと一連のトークンが入力として与えられたとき、queryトークンとattendedトークン間の平均距離を、attention重みでスケーリングして求められます。)

この指標による各タスクの比較結果は以下の図で示されます。

この指標の大きさは、モデルが局所的な情報を適切に扱う能力ではなく、長距離依存性を把握する能力が高い必要があることを示しています。

実験

モデル

実験にて評価されたモデルは以下の通りです。

これらのモデルの解説については過去の解説記事(1,2,3)をご覧ください。

タスク性能比較

Long Range Arenaベンチマークにおける様々なアーキテクチャの結果は以下の通りです。

(実験は可能な限り公平に評価されてはいますが、モデルごとに最適なハイパーパラメータが異なる可能性等もあり、どのモデルが最も優れているかを正確に判定するものではありません。)

・ListOpsの結果について

ListOpsタスクでは、最高のモデルの精度は37%であり、かなり困難なタスクであることがわかります。このタスクは10値分類タスクのため、完全ランダムならば精度は10%となるので、モデルが少なからずタスクを学習することが出来ていることがわかります。 ListOpsは階層構造を持つデータとなっているため、モデルが階層構造を扱う能力を示唆している可能性があります。

例えば、カーネルベースのモデル(Performer, Linear Transformersなど)は性能が低く、階層構造を扱うことに向いていないかもしれません。

・Text Classificationの結果について

ListOpsと対象的に、カーネルベースのモデルが優れた性能を発揮していることがわかります。モデルの向き不向きが現れた結果であるとも考えられます。

・Retrievalの結果について

最高のモデルでも60%未満の性能しか達成できていない、困難なタスクであることがわかります。

性能の高いモデルはSparse TransformerとBigBirdであり、固定された注意パターンからなるモデルが相対的に優れており、低ランク因数分解・カーネルベースモデルは相対的に劣る結果を示しています。

・Image Classificationの結果について

このタスクでは全体として、モデル間の性能のばらつきは小さくなっています。LinformerとReformerは相対的に劣っており、Sparse TransformerとPerformerが比較的優れています。

またこのタスクでは、訓練セットに対するオーバーフィッティングが生じており、テストセットでの一般化が難しかったことが観察されています。

・Pathfinder / Path-Xの結果について

通常のPathfinderタスクでは、全てのモデルがある程度の性能を達成していました。平均性能は72であり、特にカーネルベースのモデル(PerformerとLinear Transformer)が良い性能を発揮しています。非常に大きいシーケンス長を持つPath-Xでは、全てのモデルが学習に失敗しました(ランダム性能と同じ50%程度)。本質的にはPathfinderと同じタスクであるにも関わらず、シーケンス長の増大によりタスク解決が著しく困難になることがわかりました。

効率性の比較

次に、各モデルの効率性の比較として、異なるシーケンス長ごとの訓練実行時間とメモリ使用量を以下に示します。

ベンチマークは4x4 TPU V3 Chipsで実行されており、バッチサイズ32における毎秒当たりのステップ数が示されています(実行するハードウェアによって順位が変化する可能性もあるでしょう)。

・訓練速度について

特に高速だったのは低ランク因数分解とカーネルベースモデルであり、最速のモデルはPerformerとなりました。特にシーケンス長が4Kの場合、通常のTransformerの5.7倍もの速度を発揮しています。

またReformerは一貫して遅く、全てのシーケンス長で通常のTransformerよりも遅くなっています。

・メモリ使用量について

最もメモリ使用量が少ないのはLinformerで、シーケンス長4Kの場合は通常のTransformerの1割程度まで削減されています(9.48GB→0.99GB)。速度と同様、カーネルベースのモデル(PerformerとLinear Transformer)も比較的優れています。

LinformerやPerformerは、シーケンス長の増大に対してメモリ使用量が大きく増加しないこともわかります。

全体の結果(万能アーキテクチャは未だ存在しない)

全てのタスクにおける性能の平均値で見ると、最も優れているのはBigBirdとなっており、これは全てのタスクで一貫して優れたパフォーマンスを発揮しています。カーネルベースのモデル(PerformerとLinear Transformer)は、ListOpsタスクでの性能が劣るため、全体の平均値では低くなっています。

以下の図で、スコア(y軸)とモデルの速度(x軸)、メモリフットプリント(円の大きさ)のトレードオフが示されています。

この図を見ると、BigBirdは性能面では良好でも、速度では通常のTransformerとほぼ同じであることがわかります。カーネルベースのモデル(PerformerとLinear Transformer)は、ある程度の性能と優れた速度を発揮しています。個々のタスク結果にて説明した通り、カーネルベースのモデルは階層構造を取り扱うことに適していないなど、個々のモデルごとに特徴・特色が存在しています。

そのため、速度を重視するのか、性能を重視するのか、メモリ使用量を重視するのか、解決したいタスクはどのようなタスクなのか、などなど、想定される条件によって適切なモデルは(少なくとも現時点では)異なり、万能のモデルは未だ存在していないと言えるでしょう。