視覚認識モデルにおける弱教師あり事前学習について再検討する

画像認識 2022年09月13日

3つの要点
✔️ ハッシュタグ監視を用いた弱教師あり学習について検証
✔️ 弱教師あり学習を教師あり学習・自己教師あり学習と比較
✔️ 様々な転移学習設定で自己教師あり学習を大幅に上回る優れた性能を発揮

Revisiting Weakly Supervised Pre-Training of Visual Perception Models
written by Mannat Singh, Laura Gustafson, Aaron Adcock, Vinicius de Freitas Reis, Bugra Gedik, Raj Prateek Kosaraju, Dhruv Mahajan, Ross Girshick, Piotr Dollár, Laurens van der Maaten
(Submitted on 20 Jan 2022 (v1), last revised 2 Apr 2022 (this version, v2))
Comments: CVPR 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

コンピュータビジョンタスクにおいて、事前学習は非常に重要な要素です。中でも、ImageNetにおける教師あり事前学習はデファクトスタンダードとなっていますが、最近の研究では、大規模な弱教師あり事前学習が教師あり手法を凌駕する可能性が示されています。

本記事で紹介する論文では、ハッシュタグを用いた弱教師あり事前学習手法について、最新のネットワークと大規模なデータセットを利用して性能の測定と既存手法との比較を行いました。

その結果、弱教師あり事前学習モデルは様々な転移学習設定において自己教師あり学習モデルを大幅に上回るなどの優れた結果が得られ、弱教師あり事前学習を用いることの有効性が示されました。

ハッシュタグによる弱教師あり事前学習

論文で検証する弱教師あり事前学習手法はハッシュタグ監視(supervision)に基づいています。これは、画像の投稿者がその画像に付けたハッシュタグを予測するタスクとなります。

このタスクには、一般的な画像分類タスクと比べて以下のような違いがあります。

ハッシュタグは本質的にノイズが多い。
ハッシュタグの使用量はZipfian分布に従う。
ハッシュタグは本質的にマルチラベルで、一般的には一つの画像に複数のハッシュタグが設定される。

ハッシュタグデータセットの収集

学習に用いるデータセットは、Instagramで公開された写真とハッシュタグを収集して構築されました。

この手順は4つのステップから構成されています。

頻繁に使用されるハッシュタグを選択して正規化し、ハッシュタグの語彙を構築する。
選択されたハッシュタグのうち最低1つがタグ付けされた公開画像を収集する。
得られた画像と関連するハッシュタグを組み合わせ、事前学習に利用可能なラベル付きサンプルを作成する。
得られた例からリサンプリングを行い、望ましいハッシュタグ分布を得る。

4ステップ目のリサンプリングでは、頻度の高いハッシュタグの割合を減らし、頻度の低いハッシュタグの割合を増やすことを目的としています。これは、ハッシュタグの頻度の平方根の逆数によりリサンプリングを行うことで実現します(1つのエポックで頻度の低い画像が複数回現れることがあります)。

この結果、3.6B枚の画像からなる大規模なデータセットが得られており、フルサイズのデータセットをIG-3.6Bと名付けました。

事前学習について

実験に用いたアーキテクチャは、予備実験ではResNeXt、RegNetY、DenseNet、EfficientNet、ViTについて検討し、本実験では最も性能の良いRegNetY、ViTを中心として実験を行いました。

事前学習の際には、クラス数$|C| \approx 27k$の線形分類器を出力に接続し、SoftMaxの出力予測確率とターゲット分布間のクロスエントロピー損失を最小化するようにモデルの学習を行います。(ハイパーパラメータ等の詳細については元論文3.2をご参照ください。)

実験設定

実験では、画像分類におけるさまざまな転移学習について検討します。

具体的には、(1)線形分類器を用いた転移学習、(2)ファインチューニングを用いた転移学習、(3)ゼロショット転移学習、(4)Few-shot転移学習について検討します。また、提案手法である弱教師あり学習手法について、完全教師あり学習または自己教師あり学習との比較実験を行います。

データセット

事前学習時のデータセットについては先述の通りです。転移学習実験では、以下に述べるデータセットを使用します。

ImageNet1k
ImageNet5k
iNaturalist 2018
Places365-Standard
Caltech-UCSD Birds-200-2011(CUB-2011)

ファインチューニング時のハイパーパラメータ等については、元論文Sec4.1をご参照ください。

実験結果

教師あり事前学習との比較

はじめに、教師あり事前学習モデル(EfficientNet、ViT)との比較結果は以下の通りです。

表の通り、弱教師あり学習モデルは5つの下流データセット全てについて、1位または2位という優れた性能を示しました。また、スループットと分類精度のトレードオフについて図示した結果は次の通りです。

教師あり事前学習を行ったEfficientNet、IG 3.6Bデータセットで弱教師あり事前学習を行ったRegNetY、ViTについて、ViTは高い分類精度を示しています。また、精度とスループットのトレードオフについて見ると、RegNetYは良好な特性を示しています。

自己教師あり事前学習との比較

数十億枚という大規模画像を使用した弱教師あり事前学習により、教師あり学習と匹敵する性能が得られることがわかりました。この結果は、よりスケールアップが簡単な自己教師あり学習と比べ、弱教師あり学習に優位性があるのかという疑問を生じさせます。

この疑問に答えるため、SimCLRv2、SEER、BEiTとの比較を行います。特に、SEERはInstagram画像上で学習されるモデルのため、学習パラダイムの比較として重要な比較対象となります。

ImageNet-1k上での結果は以下の通りです。

表の通り、特にサンプル数が少ない場合(1%、10%)において、最先端の自己教師あり学習と比べて大幅に性能が向上することがわかりました。(なお、これらの結果は文献から得られた性能のため、事前学習モデルのデータセット規模を大きくすることで観測結果が変化する可能性があります。)

ゼロショット転移学習

弱教師ありモデルは事前学習時に多様な学習対象を観察しているという利点があります。このことを踏まえて、ゼロショット転移学習について実験を行い、新しい視覚的概念を高速に学習・認識する能力について検証します。結果は以下の通りです。

多くの要因が異なることには注意が必要ですが、提案された弱教師ありモデルは非常に良い性能を発揮しており、弱教師あり学習手法がオープンワールドの視覚認識モデルに向けた有望な道筋を提供することを示唆しています。

まとめ

画像認識における弱教師あり事前学習について、教師あり・自己教師あり学習との比較を行い、弱教師あり学習の優位性が示されました。

ただし、複雑な学習手順や独自に収集されたデータセット、既存研究の再現に必要となる莫大な計算量をはじめとした多くの制限があるため、ある変数の効果を検証するための対照実験を行うことは困難です。また論文では、弱教師あり学習が有害なステレオタイプを反映する可能性があるなど、一般的な評価指標では判断できない要素があることも合わせて、手法の比較に限界があることを課題として挙げています。

総じて、異なる手法間の比較にはある程度の限界はあるものの、弱教師あり学習手法が画像認識で非常に優れた性能を発揮しうることが示されました。