Facebook AIの新しい自己教師あり学習アルゴリズム：Barlow Twins

self-supervised learning 2021年04月12日

3つの要点
✔️ 視覚タスクのための新しい自己教師あり学習アルゴリズム
✔️ 従来手法と比較して、バッチサイズが小さくても、次元が大きくても機能する
✔️ SOTAモデルと競合する性能を発揮

Barlow Twins: Self-Supervised Learning via Redundancy Reduction
written by Jure Zbontar, Li Jing, Ishan Misra, Yann LeCun, Stéphane Deny
(Submitted on 4 Mar 2021)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Neurons and Cognition (q-bio.NC)

code：

はじめに

近年自己教師あり学習は、ImageNetのような大規模なコンピュータビジョンのベンチマークにおいて、教師あり学習と競合するようになってきています。コンピュータビジョンでは、データ増強の形で多くの自己教師付き学習が導入されています。その目的は、入力のばらつきに影響されない汎用的な表現を学習することです。この目的を達成するためにモデルが行う最も簡単なことは、一定の表現を学習することですが、これは望ましくありません。そこで、SimCLR、SimSIAM、BYOL、SwAV、SeLaなどのSiamese networkの亜種は、ネットワークペアに非対称性を導入するなどの様々な手法を用いています。

本論文では、Barlow Twins: 神経科学者のH. Barlowによって導入された概念である冗長性削減を利用した自己教師あり学習アルゴリズムを紹介します。この手法は、出力表現間の相互相関行列を恒等行列に近づけようとするものです。他の手法とは異なり、バッチサイズが小さく、高次元の表現でもうまく機能します。また、ImageNetの低データ領域では他の手法よりも優れており、現在のSOTAモデルと同等の性能を有しています。

Barlow Twins

Barlow Twinsアルゴリズムの実装は非常に簡単です。まず、ランダムな画像Xをサンプリングします。これらの画像を、T個のランダムな画像拡張法を用いて歪ませ、歪んだセットY^AとY^Bを取得します。歪んだ画像は、学習可能なパラメータθを持つ関数（DNN）f_θに渡されます。したがって、バッチ次元に沿って平均が0になるように作られた2つの出力バッチZ^AとZ^Bが得られます。バッチ次元(b)に沿って相互相関行列を以下のように計算します。

Cは、ネットワークの出力の次元と同じ大きさで、-1から1までの値を持つ正方行列です。損失関数は次のように計算されます。

上式の不変項は、対角線上の項を1に近づけること、すなわち入力の歪みに対して表現を不変にすることを目的としています。2番目の項は、相関行列の非対角成分を0に近づけること、つまり出力ユニット間の冗長性を減らすことを目的としています。 λは定数で、値が大きいほど冗長性の削減を優先します。 Pytorchスタイルの疑似コードを以下に示します。

重要なアブレーション研究

Barlow Twinsを用いてImageNetデータセットでモデルを学習し、モデルの線形評価について以下の検討を行いました。

損失関数の削除

我々の手法と同様に、infoNCEのようなSSLの損失関数はバッチ次元に沿って正規化しますが、cosine類似度を測定する損失関数は特徴次元に沿って正規化します。そこで、単位球面上に値が乗るように、特徴次元に沿って正規化することを試みたが、劣った結果となっています。最後の2つの投影隠れ層(MLP)で一括正規化(BN)を行わない場合は、わずかに性能が低下し、共分散行列に正規化を行わない場合は大きく性能が低下しました。最後に、損失関数を温度によるクロスエントロピー損失に置き換えても、効果はありませんでした。

バッチサイズ

SimCLRのようなinfoNCE損失を使用する手法は、バッチサイズが小さいとパフォーマンスが低下するため、我々の手法のバッチサイズに対するロバスト性をテストする必要がありました。上の図でわかるように、我々のモデルは、256までの小さいバッチサイズでもかなりの性能を発揮します。

データ拡張の必要性

上の図が示すように、データ増強はパフォーマンスを向上させるために非常に重要です。これは、使用される増強の種類によって、我々のモデルの表現がよりよく制御されることを示しています。一方、BYOLは使用される増強の種類にはあまり変化がありません。

次元数

他のSSL手法では、次元数によってモデルの性能が低下するが、BTの場合は、プロジェクターの次元数を増やすことで、モデルの性能が大幅に向上することがわかりました。さらに、projector networkの層数が多く、最大でも3層である場合に、より良く機能することもわかりました。

追加の非対称性

BYOLとSimCLRは、ネットワークに非対称性を導入するための追加手法を使用しています。我々の損失関数は本質的に非対称性をもたらしますが、我々は追加の非対称性が役立つかどうかを実験しました。1つのネットワークには、2つの密な層を持つ予測ネットワーク（第1層にはバッチ正規化とReLUを使用）を、もう1つのネットワークには停止勾配メカニズムを追加しました。どちらも性能をさらに向上させることはできず、同時に使用すると不利になりました。

結果と評価

ImageNet ILSVRC-2012データセットを用いて、ネットワーク（ResNet-50バックボーン）をラベルを使用せずに事前学習し、画像分類や物体検出などの様々なタスクで評価しました。ランダムクロッピング（常時）、ランダムリサイズ（常時）、水平反転、color jittering、グレースケール、ガウスぼかし、solarizationなど、さまざまな拡張処理を行った。

事前に学習したResNet-50モデルの重みを固定し、分類のために線形層を学習しました。他の自己教師ありモデルと比較した場合のトップ1およびトップ5の精度を上の表に示します。次の表はPlaces-205 (top-1 accuracy)、VOC07(mAP)、iNat18(top-1 accuracy)の各データセットでモデルを微調整した結果を示しています。

いずれの場合も、現行のSOTAモデルと同等以上の性能を発揮しています。

同様に、我々の手法は、オブジェクト検出とインスタンス分割のタスクにおいて、転移学習との相性が良いことがわかります。上の表は、Faster R-CNNを用いたVOC07+12の物体検出ベンチマークと、Mask R-CNNを用いたCOCOの物体検出とインスタンス分割のスコアを示しています。

まとめ

Barlow Twins法は、現在の最先端の手法と同等でありながら、いくつかの対照的な特性を持っています。最も魅力的な特性の1つは、高次元の特徴投影での性能の高さです。ハードウェアの制限を克服した後、16000以上の領域でさらに高次元の表現を学習するために、この手法をどのように使用するかを検討することは価値があるでしょう。今回の研究は、今後の研究の基礎となるものであり、この手法をさらに改良して、より優れたSSLアルゴリズムを得ることができる可能性があります。