マルチモーダル・エンドツーエンド・トランスフォーマー

Transformer 2022年09月26日

3つの要点
✔️ ViTベースのVLPモデルをエンドツーエンドで学習する方法を検討するためのフレームワーク
✔️ モデル設計を四つの要素に分解して検討
✔️ 4M枚の画像による事前学習で最先端モデルに匹敵する性能を達成

An Empirical Study of Training End-to-End Vision-and-Language Transformers
written by Zi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan Wang, Chenguang Zhu, Pengchuan Zhang, Lu Yuan, Nanyun Peng, Zicheng Liu, Michael Zeng
(Submitted on 3 Nov 2021 (v1), last revised 18 Mar 2022 (this version, v3))
Comments: CVPR2022.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

視覚的質問応答(VQA)や画像-テキスト検索などの視覚-言語(VL)タスクの解決策として、大量の画像とキャプションペアを利用してマルチモーダル表現を学習するVLP(Visual-and-language pre-training)が優れた性能を示しています。

このVLPに対して、コンピュータビジョンで良好な結果を示したViT(Vision Transformer)を利用することが可能であるかは自然な疑問だと言えるでしょう。

本記事で紹介する論文では、METER(Multimodal End-to-end TransformER)フレームワークを提案し、完全なTransformerベースのVLPモデルをエンドツーエンドで事前学習させる方法を調査しました。

そして、モデル設計の様々な要素をはじめとした、より優れた性能を得るための様々な分析を行い、その結果を組み合わせることで、VQAv2 teststdセットで77.64%の精度を達成し、既存の最先端手法を上回る結果を達成しました。

VLPモデルについて

はじめに、代表的な三種類のVLP(Visual-and-language pre-training)モデルについてそれぞれ説明します。

この表では、視覚・テキスト特徴抽出に用いるエンコーダ(Vision EncoderとText Encoder)、これらの特徴量を融合するのに用いられるMultimodal Fusion、デコーダ、事前学習目的がまとめられています。

・物体検出(OD)ベースの領域(Region)特徴

多くの先行研究において、事前学習済みの物体検出モデルが視覚的特徴の抽出に用いられています(表のVision EncoderのOD)。

この手法の欠点として、領域特徴の抽出には時間がかかり、事前学習済みODは事前学習中に凍結されるため、VLPモデルの容量が制限されることが挙げられます。

・CNNベースのグリッド特徴

ODベース手法の欠点を克服し、エンドツーエンドで事前学習を行うための方法として、例えばPixelBERTやCLIP-ViLでは、CNNとテキストからグリッド特徴を直接Transformerに供給しています。

グリッド特徴を直接使用することは効率的ですが、通常、CNNとTransformerでは異なるOptimizerが使用されます。例えばPixelBERTとCLIP-ViLの場合、TransformerではAdamW、CNNではSGDが使用されています。

・ViTベースのバッチ特徴

ViTベースの特徴を使用する場合として、例えばViLTでは、画像パッチ特徴とテキストトークン埋め込みを直接ViTモデルに与えています。また、Visual ParsingとALBEFもViTを画像エンコーダとして使用しています。

ただしこれらのモデルはVQAなどの下流タスクで最先端の性能に遅れを取っています。本記事で紹介する論文では、高速な推論速度を維持しつつ高い性能を発揮する、エンドツーエンドのViTベースモデルの事前学習手法について検討しています。

METERフレームワーク

論文では先述した三種類のVLPモデルのうち、ViTベースのバッチ特徴を使用する手法について焦点を当てています。

この目的のため、論文では以下の図のようなMETERフレームワークを提案しています。

全体として、まずテキスト文$l$と画像$v$が与えられた時、VLPモデルはまずテキスト特徴$l=\langle l_1, ..., l_N \rangle$と視覚特徴$v=\langle v1, ..., v_M \rangle$をテキストエンコーダ・視覚エンコーダで抽出します。

これらをマルチモーダル融合モジュールに通してクロスモーダル表現を生成し、オプションでさらにデコーダを通したのち、最終出力を生成します。このフレームワークに基づいて、優れたエンドツーエンドのViTベースVLPモデルを得るために様々な分析を行います。

モデルアーキテクチャ

モデルアーキテクチャの設計については、大きく四つの要素：視覚エンコーダ、テキストエンコーダ、マルチモーダル融合モジュール、デコーダを使用するかどうかに分かれています。

視覚エンコーダ

ViTベースのバッチ特徴を使用する場合、画像はパッチ(16x16)に分割され、これがTransformerモデルに入力されます。

ただし先述の通り、既存のViTベース手法によるVLPモデルは最先端と比べて性能が低く、また、様々な事前学習済みViT変種のうち、どのモデルがVLPに最適であるかはわかりません。

論文では、以下のViTベース手法を視覚エンコーダとして利用して分析を行っています。

ViT
DeiT
Distilled-DeiT
CaiT
VOLO
BEiT
Swin Transformer
CLIP-ViT

テキストエンコーダ

VLPモデルでは、まず入力文をサブワード列に分割し、文の最初と最後に特別なトークンを挿入して入力テキストシーケンスを生成します。

論文ではテキストエンコーダとして、以下の事前学習済み言語モデルを使用しています。

BERT
RoBERTa
ELECTRA
ALBERT
DeBERTa

また、BERTの埋め込み層で初期化された、単純な単語埋め込みのみを使用する実験も行っています。

マルチモーダル融合モジュール

視覚・テキスト特徴を融合するモジュールについて、論文では以下の二種類の融合モジュール両方について検討しています。

Co-Attentionモデルでは二種類の特徴を別のTransformerブロックに与えてCross-Attentionを利用する一方、Merged Attentionモデルでは二つの特徴を単純に連結して一つのTransformerブロックに入力します。

エンコーダのみ、またはエンコーダ・デコーダ

既存のVLPモデルでは、最終出力層の前にデコーダを使用する場合と使用しない場合の両方があります。実験では以下の図の通り、デコーダを使う場合・使わない場合両方について検討しています。

事前学習目的

次に、モデルの事前学習目的について検討します。

・Masked Language Modeling(MLM)

VLPにおけるMLMでは、画像とキャプションのペアが与えられた時、まず入力トークンの一部をランダムにマスクします。

次に、マスクされたトークン列$l^{mask}$と画像$v$から、元の入力トークン$l$を復元するように学習を行います。

・Image-Text Matching(ITM)

画像-テキストマッチングでは、画像とキャプションのペアが与えられた時、そのキャプションがその画像に対応しているかを識別する二値分類問題を学習します。

・Masked Image Modeling(MIM)

MIMではMLMの代わりに、画像の一部をマスクし、その領域特徴を復元するよう学習します。領域特徴ではなく、マスクされた領域のオブジェクトラベルを予測する場合もあります。

ただし、最新のVLPモデルではMIMを適用しないこともあり、MIMがVLPに有効であるかを疑問視する研究も存在します。

論文ではさらなる検討のため、MIMをパッチ分類タスクとして扱い、以下の二通りの実装について分析します。

・Masked Patch Classification with In-batch Negatives

一つ目に、バッチ内のネガティブから構成された動的語彙を用いて、モデルに入力パッチを復元させます。

具体的には、まず学習ステップごとに画像・キャプションペアのバッチ$\{\langle v^k, l^k \rangle\}^B_{k=1}$がサンプリングされるとします($B$はバッチサイズ)。このとき、$\{v^k\}^B_{k=1}$に含まれる全ての画像パッチを候補集合とし、ランダムにマスクされたパッチが候補集合内のどれにあたるかを予測します。

・Masked Patch Classification with Discrete Code

二つ目に、入力パッチの離散表現を得て、それを復元するようモデルを学習させます。具体的には、DALL-EのVQ-VAEを用いて各画像を一連の離散トークンに変換し、パッチ数とトークン数が一致するよう画像サイズをリサイズします。

そして、ランダムにマスクされたパッチに対応する離散トークンを予測します。

METERのデフォルト設定

特に言及がない場合、実験におけるMETERのデフォルト設定は以下の通りです。

モデルアーキテクチャについて、エンコーダは6層のTransformerエンコーダ層からなり、各層はSelf-attentionブロック、cross-attentionブロック、feed-forwardブロックから構成されています。最上層の隠れサイズは768、ヘッド数は12です。
事前学習目的はMLMとITMの二つを用います。
事前学習データセットには、COCO、Conceptual Captions、SBU Captions、Visual Genomeの四つを用います。
下流タスクには主にVQAv2に焦点を当てています。また、NLVR2、SNLI-VE、COCO、Flickr30kでも比較のために評価を行います。
事前学習ではAdamWを用いて100kステップの学習を行います。

実験

視覚・テキストエンコーダについて

はじめに、視覚・テキストエンコーダの影響について調べます。ここで、事前学習に大きなコストがかかることを踏まえ、VLPを用いずに研究を行います。具体的には、下層を事前学習済み視覚・テキストエンコーダで、上層をランダムに初期化し、直接下流タスクでモデルの微調整を行います。

視覚・テキストエンコーダの影響はそれぞれ以下の通りです。

VLPを用いずに直接モデルを最適化した場合、視覚エンコーダにはSwin TransformerとCLIP-ViTが特に有効でした。

一方、テキストエンコーダでは大きな差異はありませんでしたが、最もロバストなのはRoBERTaであるとみられました。なお、単語埋め込みだけを用いる設定(Emb-only)では性能が低下しており、事前学習済みのテキストエンコーダを用いることは重要であると考えられます。これらの結果を鑑みて、VLPを用いた場合についての結果は以下の通りです。