わずか1%のラベルでImageNet高精度「SimCLR」解説

画像認識 2020年04月20日

3つの要点
✔️ SimCLRは画像認識のSelf-SupervisedモデルのSoTAで、Supervisedモデルにも匹敵する精度
✔️ 最適なData AugmentationとContrastive Lossを組み合わせたことで高精度
✔️ わずか1%ラベルのImageNetにおいても、Top-5精度85.8%

A Simple Framework for Contrastive Learning of Visual Representations
written byTing Chen, Simon Kornblith, Mohammad Norouzi, Geoffrey Hinton
(Submitted on 13 Feb 2020 (v1), last revised 30 Mar 2020 (this version, v2)))
Comments: Publised by arXive
Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (stat.ML)

導入

これまで画像認識の分野ではデータとラベルをセットにして使う教師あり学習が主流で、SoTAモデル(Noisy Student[解説]やBiT[解説])も漏れなく教師あり学習になっています。ただし、その高い精度と引き換えに教師あり学習には大きな欠点があります。それはラベリングを大量に必要とすることです。ラベリングは人間が行うためかなり高コストで時間のかかるものになります。ここで、ラベルのついていない画像データを最大限に活かすことでこのラベリングをなるべく減らして高精度なモデルを手に入れようとする学習がSelf-Supervised Learning(=自己教師あり学習, SSL)です。そんな夢のようなSSLで、とうとう教師あり学習に匹敵する精度が叩き出されたということで話題になっているのが今回紹介するSimCLRです。共著者にGeoffrey Hintonも名を連ねているだけでもインパクトが大きいですが、以下の図からSimCLRが教師あり学習モデル(ResNet-50)に匹敵していることが驚きです。