Contrastive Learningの２大手法SimCLR・MoCo、それぞれの進化 (画像の表現学習2020夏特集2)

画像認識 2020年07月20日

3つの要点
✔️ ビッグプレーヤー達がアプローチするContrastive Learning、その高い性能を競い合う
✔️ 大量なネガティブサンプルの必要性とその回避
✔️ 対抗手法の改善を取り込んで更に性能を向上させるバージョンアップ

Big Self-Supervised Models are Strong Semi-Supervised Learners (SimCLRv2)
written by Ting Chen, Simon Kornblith, Kevin Swersky, Mohammad Norouzi, Geoffrey Hinton
(Submitted on 17 Jun 2020)
Comments: Published by arXiv
Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (stat.ML)
Paper Official Code COMM Code

Improved Baselines with Momentum Contrastive Learning (MoCo v2)
written by Xinlei Chen, Haoqi Fan, Ross Girshick, Kaiming He
(Submitted on 9 Mar 2020)
Comments: Published by arXiv
Subjects: Computer Vision and Pattern Recognition (cs.CV)
Paper Official Code COMM Code

ライター持ち込み特集企画「画像の表現学習2020夏」と題して、教師なし学習による各種手法をご紹介しています。

その1. ドメイン知識なし教師なし学習を実現したImage GPT、画像生成もすごい!
その2. Contrastive Learningの２大手法SimCLR・MoCo、それぞれの進化
その3. Contrastive LearningとクラスタリングでSOTA!?
その4. Contrastive Learningへの問い「What Makes?」
その5. 汎用性・実用性ともに優れたDeepMindの教師なし学習手法

二度に渡るAIの冬を乗り越え、大量の画像データセットImageNetで表現力を得ることで、2012年に画像のAIが大きく花開きました。しかし、これには人による画像のラベル付けに大きなコストが必要でした。これに対して、2018年に自然言語処理でフェイクニュースの懸念になるほど大きな社会的インパクトを与えたBERTは、莫大なデータをそのまま利用できることも大きな特徴です。

Contrastive Learning(対照学習)とは、コストのかかるラベル付けの代わりにデータ同士を比較する仕組みを使い、膨大なデータをそのまま学習できる教師なし学習の一つです。画像への応用で成果を上げてきており、すでにImageNet学習済みモデルの性能を超え、BERTのようにこれからのインパクトが画像分野で期待されています。

このContrastive Learning、近年数多くの論文が投稿され活況を見せています。

例えば Papers With Code (論文やそのコードをまとめた有名サイト)のリーダーボード "Self-Supervised Image Classification on ImageNet" (ImageNetの自己教師あり学習) を見ると、2020年・2019年に提案された手法でトップが占めらているのを見ることができます。

今回はトップ付近に出てくる手法の中で非常によく引用され、比較対象としても引き合いに用いられるデファクトスタンダードな手法「SimCLR」「MoCo」それぞれバージョン2に至るまでの道のりを取り上げます。

これらの論文が精度を上げるまで、どのような特徴や工夫、経緯があったのでしょうか。

まずは、基本的なモチベーションや狙い、そして基本となるContrastive Learningについて、おさらいしたいと思います。(詳しい方はどうぞスキップしてください)

なぜ画像の教師なし学習?

画像の機械学習はもうすでに当たり前のように応用され、十分に性能が出ている、そんな認識が広まっているように思われます。

前回の記事「ドメイン知識なし教師なし学習を実現したImage GPT、画像生成もすごい!」に今までの経緯について書きましたが、きっかけとしては自然言語処理 (NLP) で「BERT (Devlin et al., 2019)」が非常に大きな影響力を与えたことにあるかもしれません。
※ BERT について詳しくは本メディア「Googleが公開した自然言語処理の最新技術、BERTとは何者なのか」も御覧ください。

BERTをきっかけとして様々なタスクの性能が向上し、NLPの進歩が見られたことから、画像に対しても同じように教師なしでモデルを学習させることで、性能の向上が期待されました。また、

ImageNet学習済み → (転移学習) → 画像分類・物体検出・セグメンテーションなどのタスク応用

この使い方が定着している状況で、2018年にはImageNet学習済みモデルの利用に疑問を投げかけた論文が書かれました。物体検出でImageNetを使った転移学習で必ずしも性能が上がるわけではなく、むしろ使わないほうが良い場合もあることが示されたのです。

"Rethinking ImageNet Pre-training" (He et al., 2018)
ImageNet学習済みモデルの利用に一石を投じた

加えて、その当時すでに提案済みの事前学習手法が十分評価に耐えられる性能が出ていなかったようで、疑問を投げかけています。

万能な表現を追い求めるべきなのか? はい、万能な表現を学習することは努力に値する目標だと信じています。我々の結果はこの目標からそれているわけではありません。実際、我々の研究は、ランダムに初期化したときに良い結果を出せることを示したように、(自己教師あり学習で得られた)学習済みの特徴量の評価をもっと注意深く行うべきと示唆しています。

そして、この問題を提起した著者Heら自ら、下の結果を出しました。ImageNet学習済みモデルより、MoCoで自己教師あり学習したモデルのほうが物体検出の性能が上がることが示されたのです。

論文 MoCo v2のTable 1より、性能が上がることを実現した結果