ConvNeXt V2：マスクオートエンコーダによるConvNetsの改善とスケーリング

画像認識 2024年04月03日

3つの要点
✔️ CNNのSOTAであるConvNeXtは教師あり学習のために設計されたものであるが、マスクオートエンコーダ（MAE）のような自己教師あり学習と組み合わせることで、性能の向上が可能
✔️ 実験結果によりこの2つを単純に組み合わせると、パフォーマンスが低下
✔️ ConvNeXtに追加可能なMAEと新しいグローバル応答正規化（GRN）を提案して、ConvNeXt全体の性能を大幅に向上した

ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
written by Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon, Saining Xie
(Submitted on 2 Jan 2023)
Comments: Code and models available at this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

ニューラルネットワークのアーキテクチャ設計の革新は、画像認識分野で重要な役割を果たしています。畳み込みニューラルネットワーク（ConvNets）、手動の特徴エンジニアリングに代わり、さまざまな視覚認識タスクに汎用的な特徴学習方法を提供し、コンピュータビジョン研究に大きな影響を与えています。

Transformerアーキテクチャは、自然言語処理のために開発されましたが、画像認識分野に応用される時、精度とスケーリング能力の観点でConvNetsを上回り、長らくトップの座を独占してきました。

最近では、ConvNeXt (Liu et.al, 2022)が従来の ConvNets を最新化し、画像認識タスクの最高精度を達成して純粋な畳み込みモデルもスケーラブルなアーキテクチャであることを示しています。

ニューラルネットのより良い設計を探索するために、ConvNeXtの教師あり学習だけではなく、マスクオートエンコーダ（MAE）のような自己教師あり学習との組み合わせるアプローチも期待されています。しかし、この２つの手法を組み合わせる場合、２つの課題があります。

その1つは、MAEがトランスフォーマーのシーケンス処理能力に最適化された特定のエンコード-デコード設計を持っているため、標準的なConvNetsとの互換性がない可能性がある点です。さらに、以前の研究では、マスクベースの自己教師あり学習を使用してConvNetsをトレーニングすることが難しいことが示されています。

今回の解説論文では、ConvNeXtに追加可能なMAEと新しいグローバル応答正規化（GRN）レイヤーを提案して、ConvNeXt全体の性能を大幅に向上し、ImageNetデータセットではSOTAの結果を達成しました。

完全畳み込みマスクオートエンコーダ（FCMAE）

マスキング

マスキング比率が0.6のランダムマスキングを採用しています。畳み込みモデルは階層的な設計を持ち、特徴は異なる段階でダウンサンプリングされます。

マスクは最後の段階で生成され、最高解像度まで再帰的にアップサンプリングされます。具体的には、元の入力画像から32x32のパッチのうち60%をランダムに除去します。データ拡張は最小限で、ランダムなリサイズクロッピングのみを含みます。

エンコーダの設計

本論文では、ConvNeXtをエンコーダーとして使用しています。マスクされた画像モデリングを効果的に行うための課題の1つは、モデルがマスクされた領域から情報を簡単にコピーして貼り付けるショートカットを学習しないようにすることです。これは、ConvNetsでは2D画像構造を維持する必要があるため、特に問題となります。

一般的な解決策は、学習可能なマスクトークンを導入することですが、これはトレーニングとテストの一貫性に問題が生じる可能性があります。

この課題を解決するために、図1に示したように、事前トレーニング中に、エンコーダー内の標準的な畳み込み層をスパース畳み込みに置き換えます。スパース畳み込み層は、追加の処理なしにファインチューニング段階で標準的な畳み込みに戻すことができます。

デコーダの設計

軽量でシンプルなConvNeXtブロックを使用しています。エンコーダーが重く階層的であるのに対し、このアーキテクチャは全体として非対称です。より複雑なデコーダーも検討しましたが、単一のConvNeXtブロックのデコーダーがファインチューニングの精度と事前トレーニング時間の削減において優れたパフォーマンスを示しました（表1参照）。デコーダーの次元は512です。

Global Response Normalization (GRN)

GRNを提案する理由は図2と図3に示されています。図2のように、先行研究のConvNeXt（ConvNeXt V1）のいくつかの特徴マップが無効または飽和しており、活性化がチャンネル間で冗長になっています。

一方、図3に示したように、ConvNeXt V1の下位層に深くなるほど、抽出された各層の特徴はより類似します。特に、提案したFCMAEと組み合わせる時、この問題がより深刻となっています。GRNは学習中に特徴を多様化し、特徴の崩壊を防ぐ方法だと考えられます。

GRNは、次の3つのステップから構成されます：1) グローバル特徴集約、2) 特徴正規化、および3) 特徴キャリブレーション。最初に、空間的な特徴マップXiを、グローバル関数Gによってベクトルgxに集約します:

これは、単純なプーリング層と見なすことができます。表2.aに示したように、いくつの異なる関数を実験し、広く使用されている特徴集約器であるグローバル平均プーリングはうまく機能しなかったことがわかりました。その代わりに、L2ノルムを使用したノルムベースの特徴集約を使用すると、性能が向上することがわかりました。

次に、集約された値に応答正規化関数N(·)を適用します。具体的には、以下のように標準の除算正規化を使用します。

他の形式の正規化と同様に、このステップでは相互抑制によるチャネル間の特徴競争が生じます。表2bでは、他の正規化関数の使用も検討し、単純な除算正規化が最も効果的であることがわかります。ただし、同じL2ノルムで集約された値に適用される場合、標準化も似たような結果を示します。

最後に、計算された特徴正規化スコアを使用して、次の式のように、元の入力応答をキャリブレーションします。

最適化を容易にするために、2つの追加の学習可能なパラメータ、γとβを追加し、それらをゼロで初期化します。また、GRNレイヤーの入力と出力の間に残差接続を追加します。

結果として得られる最終的なGRNは次のようになります：Xi = γ ∗ Xi ∗ N(G(X)i) + β + Xi 。この設定により、GRNが最初は恒等関数を実行し、トレーニング中に徐々に適応することが可能です。残差接続の重要性は、表2cで示されています。

GRNの有効性は図2と図3に示されています。図2の可視化結果と図3のコサイン距離分析から、GRNを導入したConvNeXt V2が効果的に特徴崩壊の問題を軽減していることがわかります。また、コサイン距離の値が一貫して高いことから、特徴の多様性が層間で維持されていることも確認できます。

ImageNetデータセットでの実験

自己教師あり学習との組み合わせの重要性

表3の結果は、提案したアプローチの重要性を示しています。FCMAEフレームワークをモデルアーキテクチャを変更せずに使用すると、画像認識の制度に影響しかないことがわかりました。

同様に、提案したGRNレイヤーは、教師あり設定の下ではパフォーマンスにほとんど影響を与えませんでした。一方、この2つを組み合わせることで、ファインチューニングのパフォーマンスが大幅に向上しました。

モデルのスケーリング

本研究では、低容量の3.7M Attoモデルから大容量の650M Hugeモデルまで、サイズの異なる8種類のモデルを評価しました。これらのモデルを、提案したFCMAEフレームワークを使用して事前学習し、その後、完全な教師ありの対応するモデルとファインチューニングの結果を比較しました。

図4に示される結果は、モデルのスケーリングが強力であることを示しており、すべてのモデルサイズにおいて、教師ありのベースラインよりも一貫して性能が向上しています。これは、マスクされた画像モデリングの有効性と効率性の両方が、これほど幅広いモデル領域で初めて実証された例である。

従来の方法との比較

本実験では、提案手法を、過去のマスクオートエンコーダーの手法がトランスフォーマーベースのモデルに設計されたものと比較しました。結果は表4にまとめました。

提案手法は、全てのモデルサイズにおいて、SimMIMで事前訓練されたSwinトランスフォーマーを上回りました。また、MAEで事前に訓練されたプレーンなViTと比較すると、提案手法は、はるかに少ないパラメータ（198M対307M）にもかかわらず、ラージモデル領域で同様の性能を発揮しています。

しかし、巨大モデル領域では、先行研究と比較して、提案手法の精度が若干低下しています。これは、巨大なViTモデルが、自己教師付き事前学習からより多くの利益を得ることができる可能性があるためです。次の実験では、追加の中間ファインチューニングによってこの差が埋められるかもしれません。

ImageNet-22Kの中間チューニング

表5はImageNet-22Kの中間チューニング結果を示しています。学習プロセスは3つの段階から成ります：1) FCMAEの事前学習、2) ImageNet-22Kのファインチューニング、3) ImageNet1Kのファインチューニング。事前学習とファインチューニングには解像度3842の画像を使用しました。結果は、畳み込みベース、トランスフォーマーベース、ハイブリッドデザインなどの最先端のアーキテクチャデザインと比較され、提案手法が最高精度を達成したことが確認されます。

転移学習の実験

本実験では、転移学習のパフォーマンスをベンチマークします。まず、「ConvNeXt V1 + 教師あり学習」と「ConvNeXt V2 + FCMAE」の結果を比較し、提案手法の効果を検証します。また、SwinトランスフォーマーモデルをSimMIMで事前トレーニングしたアプローチとの比較も行います。