【MLP-Mixer】MLPがCNN，Transformerを超える日

画像認識 2021年06月10日

3つの要点
✔️ 多層パーセプトロン（MLP）だけのシンプルなアーキテクチャでSoTAに匹敵する画像分類性能を達成
✔️ 位置ごとの特徴と空間的な情報を繰り返しMixする
✔️ 計算コストを抑えつつ、同時に高い精度を達成

MLP-Mixer: An all-MLP Architecture for Vision
written by Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy
(Submitted on 4 May 2021 (v1), last revised 17 May 2021 (this version, v2))
Comments: Accepted by arXiv
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

はじめに

コンピュータビジョン領域では，長らくConvolution Neural Network (CNN)がスタンダードとして最も良く使われており，また最近ではVision Transformer (ViT)などのようなAttentionベースのネットワークも注目を集めています．しかし，本論文ではConvolutionとAttentionの両方とも必要がないことを示しています．このMLP-Mixerは2種類のレイヤーから構成されています．1つ目は画像パッチごとに適用される（位置ごとの特徴量をMixする）MLPで，2つ目は画像パッチを横断して適用される（空間情報をMixする）MLPです．このMLP-Mixerは十分な量のデータセットと正規化手法を用いることで，SoTAに匹敵する画像分類性能を達成しています．

アーキテクチャ

まずは，上図のMixerの全体像を説明します．画像を16×16などのパッチに分割し，入力とします．次にパッチごとにlinear embeddingsを行います．そして，それらに対して後述するMixer Layerを繰り返し適用します．最後に，一般的なCNNと同様にGlobal Average Poolingを適用して画像のクラス分類を行います．

次に，上図のMixer Layerの内容について説明します．線形射影された画像パッチ（token）を入力として，パッチ（空間的情報）×チャンネル（特徴量）の次元で扱います．Mixerはchannel-mixing MLPとtoken-mixing MLPの2種類のMLPを用います．Token-mixing MLPは異なる空間位置（token）の間で特徴量をMixする役割を果たし，独立にそれぞれのチャンネルに適用されてテーブルのそれぞれの列を入力として扱います．一方，channel-mixing MLPは，異なるチャンネル間で特徴量をMixする役割を果たし，独立にそれぞれのtokenに適用され，テーブルのそれぞれの行を入力として扱います．

極端なケースですが，channel-mixing MLPは1×1畳み込みを用いたCNN，token-mixing MLPは単一チャンネルのdepth-wise convolutionsとみなすこともできます．しかし，このMLP-MixerはそうしたCNNよりもはるかに単純なアーキテクチャとなっています．

さらにtoken-mixing MLPとchannel-mixing MLPを数式化してみます．なお，MLP-Blockの構造は以下で示されている通りで，全結合層＋GELU＋全結合層から成り，CNNやTransformerと比べると非常に単純であることが分かります．また，それぞれのMLPを適用する際には，ResNetのようにスキップ接続（skip-connection）でつなぎます．さらに，各MLPの前にはLayer Normalizationを行っています．