Negative Sampleを利用しないSelf-Supervised Learning！BYOL！

self-supervised learning 2020年07月07日

3つの要点
✔️ Negative sampleが不要なSelf-Supervised Learning
✔️ Batch size、Data Augmentationの影響を受けにくい
✔️ ImageNetのクラス分類等で従来のContrastive Learningより高い精度

Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning
written by Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre H. Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, Bilal Piot, Koray Kavukcuoglu, Rémi Munos, Michal Valko
(Submitted on 13 Jun 2020)
Comments: Published by arXiv
Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (stat.ML)

Code Google Colab

はじめに

DeepMindから新しいSelf-Supervised Learningの手法 Bootstrap Your Own Latent (BYOL) が提案されました。Self-Supervised Learningとは、Unsupervised Learningの一種で、ラベルを利用せず、入力データ自体から教師データを作り出すことでデータの表現を学習するものです。例えば、画像データの一部分を隠した上で、隠されていない部分の画像データを入力として隠した部分の予測をすることで表現を学習するといったものがSelf-Supervised Learningにあたります。

従来の有名なSimCLRやMoCOといったモデルなどは、データに対してAugmentationをかけたものをAnchor、同じデータに対して別のAugmentationをかけたものをPositive sample、別の画像に対してAugmentationをかけたものをNegative sampleとして、Anchorを入力とした予測をPositive sampleの予測に近づけると同時に、Neagtie sampleの予測から遠ざけることで表現を学習します。それに対して、本論文は

Negative Sampleを利用しない手法

を提案しました。では、Negative sampleを使わないことが何故良いのか？これはNegative sampleを利用しないことで、本来なら必要であった様々な工夫、例えば大きなバッチサイズ、memory bankを利用する等などが不必要になることが挙げられ、より簡単に学習ができるようになりました。

また、この手法が他の手法と比べて良いところは、Image augmentationの種類に対して影響を受けにくいというものがあります。このように、学習がしやすくなったとともに、State-of-the-artの手法であるSimCLRと比べて、学習されたデータ表現を元にしたクラス分類などで高い精度を出しました。下図は、ニューラルネットワークのパラメーター数とImageNetのクラス分類 top-1の精度に関して各手法を比較したものです。下図から、BYOLがSimCLRと比べてとても高い精度を出していることが分かります。またSupervised Learningのベースラインと比較してもパラメーター数が多いときに限っては、精度がほとんど変わらないことを示しています。

ImageNetのクラス分類におけるBYOLとその他、Unsupervised LearningとSupervised Learningの比較