Self-Supervisedモデルは下流タスクでどれだけ成功するか？

self-supervised learning 2021年11月09日

3つの要点
✔️ 様々な自己教師あり学習手法を比較
✔️ Few-Shot画像認識、物体検出、密な予測タスク等の下流タスクにおける性能を比較
✔️ ImageNetにおける性能との相関をはじめとした様々な情報を発見

How Well Do Self-Supervised Models Transfer?
written by Linus Ericsson, Henry Gouk, Timothy M. Hospedales
(Submitted on 26 Nov 2020 (v1), last revised 29 Mar 2021 (this version, v2))
Comments: CVPR 2021.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

コンピュータビジョンにおける自己教師あり学習(Self-Supervised Learning)モデルは近年目覚ましい進歩を遂げており、SimCLRやMoCoをはじめとして、教師あり学習モデルと匹敵または凌駕する性能を示しています。

では、様々な教師あり・自己教師あり学習手法を用いたImageNet上での事前学習モデルは、多様な下流タスクにおいてどのような性能を示すでしょうか？自己教師あり学習が教師あり学習と比べて常に優れた性能を発揮するのか、それとも特定のタスクでは自己教師あり学習が遅れを取るのでしょうか？また、タスクやデータセットに応じて、様々な自己教師あり学習手法の優劣は変化するのでしょうか？

こうした自己教師あり学習手法に関する質問に答えるため、本記事で紹介する論文では、現在までに提案された自己教師あり・教師あり学習手法を、様々な下流タスクにて評価しました。果たしてどのような結果が得られたのか、以下に見ていきましょう。

実験について

評価する手法について

実験にて評価を行う自己教師あり学習手法は以下の通りです。

・対照学習手法(Contrastive)

・クラスタリング手法(Clustering)

これらの手法について、ResNet50(1x)の事前学習モデルを利用し、下流タスクのためのバックボーン特徴抽出器として利用します。また、比較のための教師あり学習ベースラインとして、PyTorchから入手可能なResNet50の事前学習モデルを利用します。

モデルについても、バックボーンのパラメータ数は23.5Mであり、128万枚の画像からなるImageNet訓練セットで学習されています。

事前学習時の設定については、学習時間やデータ増強などについて、以下のような差異があります。

下流タスクでの評価時には、バックボーンにタスク固有のヘッドを追加し、ターゲットタスク上でのラベル予測を行います。

このとき、ヘッドのみを最適化するか、もしくはネットワーク全体のfine-tuningを行います。

実験における下流タスクについて

実験に用いるタスクは、大きく以下の4つに分けられます。

Many-Shot認識(ターゲットドメイン上で十分な量のラベル付きデータが利用可能)
Few-Shot認識(ターゲットドメイン上で数例のみラベル付きデータが利用可能(
物体検出
密な予測タスク(表面法線推定(surface normal estimation)とセマンティックセグメンテーション)

はじめの二つのタスクについては、ソースデータであるImageNetと比べてドメインシフトが大きいベンチマークが存在すること、後の二つのタスクは学習時と異なるタスクであり、最適な特徴量が画像認識と異なる可能性があることに注意してください。

Many-Shot認識について

・実験設定

実験に用いるデータセットは以下の通りです。

これらのデータセットについて、Linear・fine-tuningの二種類の設定にて評価を行います。

Linearでは、バックボーンで抽出した特徴量に多項ロジスティック回帰をフィットさせます。

fine-tuningでは、Nesterov momentum法を用いたSGDにより5,000ステップ学習を行います。

実験結果

結果は以下の通りです。太字は1位、下線は2位の結果を示しています。

Linear

Linear設定では、以下のような結果となりました。

Petsタスクを除くすべての下流タスクについて、最良の自己教師あり学習手法は、ImageNetでの教師あり事前学習モデルの結果を上回りました。
ImageNet上での結果は教師あり学習が最高の性能を発揮しましたが、これは自己教師あり学習手法が、より汎用的な特徴表現を学習していることを示しています。
DeepCluster-v2、BYOL、SwAVが総じて上位にランクインしています。

Fine-tuning

教師あり学習が三つの下流タスクでトップを占めており、Linear設定と比べて良好な結果を示しました。
DeepCluster0v2、SwAC、SimCLRなどが総じて優れた結果を示しており、全体として最良の自己教師あり学習手法は教師あり学習を上回りました。

Few-Shot認識について

・実験設定

実験に用いるデータセットは以下の通りです。

Pascal VOC2007を除く、Many-Shot認識時と同じデータセット
Broader Study of Cross-Domain Few-Shot Learning (CD-FSL:以下の4つからなるデータセット)
　CropDiseases
　EuroSAT
　ISIC2018
　ChestX

CD-FSLに含まれる4つのデータセットは、自然画像との類似性が低い画像からなります。

実験では、バックボーンで抽出した特徴量に対し、Prototypical Networksを利用します。

実験結果

5-way 20-shot設定における実験結果(CD-FSL除く)は以下の表のようになりました。

DTD・Flowersを除くすべてのデータセットで、教師あり学習モデルがトップの結果を示しました。
Aircraft・Carsでは教師あり学習が特に大差でトップの結果を示しました。
自己教師あり学習の中では、BYOLとDeepCluster-v2が最も優れており、次点にSwAV・SimCLR-v2が位置しています。

一方、CD-FSLにおける結果は以下の通りです。

4つのデータセット全てについて、いくつかの自己教師あり学習モデルが教師あり学習モデルの結果を上回りました。
ImageNetに最も類似したCropDiseasesでは、Many-Shot時と同様のモデルが優れた結果を示しました。
PCL-v1は一貫して最悪の結果となりました。
ISICでの結果は、他のデータセットと比べて各手法の順位が全く異なる結果となりました。

物体検出について

・実験設定

データセットにはPascal VOCを利用し、事前学習モデルにはFeature Pyramid NetworkをバックボーンとするFaster R-CNNを用います。

また、バックボーン(最後の残差ブロックを除く全て)を凍結した場合(Frozen)、すべての層をend-to-endでfine-tuningする場合(Finetune)の二種類の設定について実験を行います。

実験結果

結果は以下の通りです。

最良の自己教師あり学習手法は、教師あり学習モデルの結果を上回りました。
ただし、Many/Few-Shot認識タスクの場合と比べて、優れた結果を示したモデルは全く異なりました。
Frozen設定ではSimCLRが、Finetune設定ではBYOLが最良の結果を示しました。

密な予測タスクについて

・実験設定

表面法線推定のデータセットにはNYUv2を利用し、ResNet50をバックボーンとしてPSPNetの学習を行いました。

また、セマンティックセグメンテーションのデータセットにはADE20Kを利用し、UPerNetを利用して学習を行いました。

実験結果

結果は以下の通りです。

どちらのタスクについても、最良の自己教師あり学習手法は、教師あり学習モデルの結果を上回りました。
表面法線推定ではSimCLR-v2とBYOLが、セマンティックセグメンテーションではPCL-v1が優れた結果を示しました。
セマンティックセグメンテーションにおける自己教師あり学習の性能と、ImageNet上での性能との間には、ほとんど相関関係がみられませんでした。

ImageNetでの性能向上は、下流タスクの性能向上につながるか？

ImageNet上での性能は、自己教師あり学習の評価における主なベンチマークとなっています。では、ImageNetでの性能は、下流タスクにおける性能と明確な相関があるのでしょうか？

この問いについて、ImageNet・ターゲットタスクでの性能間の相関は以下のようになりました。

(図のKornblithは、Many-Shot時に用いたデータセットを示しています。)

また、各データセットに対する各手法の性能のプロットは以下のようになります。

これらの結果から、以下のことがわかります。

Many-Shot認識では、ImageNetと下流タスクの相関が高くなりました。
Few-Shot認識では、ドメインシフトが小さければ相関は高く、ドメインシフトが大きければ相関は弱くなりました。
物体検出では、AP50の相関が最も高く、FinetuneよりFrozen設定の方がより強い相関を示しました。
表面法線推定では、弱い相関関係が一貫してみられました。
セマンティックセグメンテーションでは、総じて相関は弱く、各手法の順位については相関が見られませんでした。

総じて、実用的な知見は以下にまとめられます。

ImageNetとのドメインシフトが大きくない認識タスクでは、Many/Few-Shot問わず、ImageNetで優れた結果を示す手法をそのまま下流タスクに利用することは有効であり、自己教師あり学習が教師あり学習を超える可能性もあります。
物体検出・密な予測タスクでは、SimCLR-v2やBYOLなど優れた結果を示しうる自己教師あり学習手法もありますが、ImageNetと下流タスクとの相関は必ずしも高くないため、ImageNetで最良のモデルが下流タスクでも有効であるとは限りません。
ImageNetとのドメインシフトが大きい(unstructuredな画像やテクスチャを含む)データセットでは、自己教師あり学習手法を選択するべき明確な根拠はなく、タスクごとに比較を行う必要があります。

また、様々な下流タスクにおける各手法の順位は以下のようになりました。

全体として比較的良好な結果を示す手法はあるものの、あらゆる下流タスクについて最良の結果を示す汎用的な手法は未だ実現されていないことがわかります。

まとめ

本記事では、様々な自己教師あり学習手法について、多様な下流タスクでの評価実験を行った論文について紹介しました。

結果として、現在の最良の自己教師あり表現学習手法は、教師あり学習を上回りうることが明確に示されました。また、ImageNetにおける性能と、様々な下流タスクにおける性能との間の相関についても確認がなされ、タスクやデータセットの分布によっては明確な相関が見られなかったり、相関が弱い場合があることがわかりました。

ただし、各ターゲットデータセットで訓練されたドメイン固有の自己教師あり学習手法についての評価実験は含まれておらず、今後の課題も残されています。