わずか1%のラベルでImageNet高精度「SimCLR」解説

わずか1%のラベルでImageNet高精度「SimCLR」解説

3つの要点
✔️ SimCLRは画像認識のSelf-SupervisedモデルのSoTAで、Supervisedモデルにも匹敵する精度
✔️ 最適なData AugmentationContrastive Lossを組み合わせたことで高精度  

✔️ わずか1%ラベルのImageNetにおいても、Top-5精度85.8%

A Simple Framework for Contrastive Learning of Visual Representations
written byTing ChenSimon KornblithMohammad NorouziGeoffrey Hinton
(Submitted on 
13 Feb 2020 (v1), last revised 30 Mar 2020 (this version, v2)))

Comments: Publised by arXive
Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (stat.ML)

導入

これまで画像認識の分野ではデータとラベルをセットにして使う教師あり学習が主流で、SoTAモデル(Noisy Student[解説]やBiT[解説])も漏れなく教師あり学習になっています。ただし、その高い精度と引き換えに教師あり学習には大きな欠点があります。それはラベリングを大量に必要とすることです。ラベリングは人間が行うためかなり高コストで時間のかかるものになります。ここで、ラベルのついていない画像データを最大限に活かすことでこのラベリングをなるべく減らして高精度なモデルを手に入れようとする学習がSelf-Supervised Learning(=自己教師あり学習, SSL)です。そんな夢のようなSSLで、とうとう教師あり学習に匹敵する精度が叩き出されたということで話題になっているのが今回紹介するSimCLRです。共著者にGeoffrey Hintonも名を連ねているだけでもインパクトが大きいですが、以下の図からSimCLRが教師あり学習モデル(ResNet-50)に匹敵していることが驚きです。

SimCLR_fig1

本記事では以下の流れで論文を解説していきます。

 

  1. SimCLR 解説
  2. SimCLR 実験結果
  3. 結論

 

この記事をシェアする