
重新审视视觉识别模型中的弱监督先验学习。
三个要点
✔️ 用标签监测验证弱监督学习
✔️ 将弱监督学习与监督和自我监督学习进行比较
✔️ 在各种过渡学习环境中明显优于自我监督学习。
Revisiting Weakly Supervised Pre-Training of Visual Perception Models
written by Mannat Singh, Laura Gustafson, Aaron Adcock, Vinicius de Freitas Reis, Bugra Gedik, Raj Prateek Kosaraju, Dhruv Mahajan, Ross Girshick, Piotr Dollár, Laurens van der Maaten
(Submitted on 20 Jan 2022 (v1), last revised 2 Apr 2022 (this version, v2))
Comments: CVPR 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
预学习是计算机视觉任务中的一个关键因素。其中,ImageNet中的监督式预训练是事实上的标准,但最近的研究表明,大规模的弱监督式预训练可以胜过监督式方法。
在本文中,使用标签的弱监督预学习方法被用来衡量性能,并与使用最先进网络和大型数据集的现有方法进行比较。
结果显示,在各种过渡学习环境中,弱监督预学习模型的表现明显优于自监督学习模型,证明了使用弱监督预学习的有效性。
用标签进行弱监督的预训练
本文测试的弱监督预训练方法是基于标签监督(SUPERVISION)的。这涉及到预测一张图片的贡献者为该图片附加的标签的任务。
与普通的图像分类任务相比,这项任务有以下区别
- 标签本质上是一种噪音。
- 标签的使用遵循Zipfian分布。
- 标签本身是多标签的,一张图片通常有多个标签。
收集标签数据集。
用于训练的数据集是由Instagram上发布的照片和标签集合而成的。
该程序包括四个步骤。
- 选择和规范经常使用的标签,以建立一个标签词汇库。
- 收集至少有一个所选标签的公共图片。
- 所得到的图像与相关的标签相结合,以创建可用于预训练的标记样本。
- 从获得的例子中进行重采样,以获得理想的标签分布。
第四步,重新取样,旨在减少频繁标签的比例,增加不频繁标签的比例。这是通过对标签频率的平方根进行重新取样来实现的(一个低频率的图像可能在一个历时中出现多次)。
这导致了一个由36亿张图像组成的大型数据集,全尺寸数据集被命名为IG-3.6B。
关于先前的学习
实验中使用的架构有ResNeXt、RegNetY、DenseNet、EfficientNet和ViT,在初步实验中考虑了这些架构,本研究中的实验主要是RegNetY和ViT,它们表现最好。
在预训练期间,一个具有$|C|\approx 27k$类数的线性分类器被连接到输出,该模型被训练为最小化SoftMax输出预测概率和目标分布之间的交叉熵损失。(关于超参数等细节,见原始论文3.2)
实验装置
实验考察了图像分类中不同类型的过渡学习。
具体来说,我们考虑了(1)带有线性分类器的过渡学习,(2)带有微调的过渡学习,(3)零次过渡学习和(4)少数次过渡学习。还进行了实验,以比较所提出的弱监督学习方法与完全监督学习或自我监督学习。
数据集
预训练期间使用的数据集如上所述。对于转移学习的实验,使用了下面描述的数据集。
- ImageNet1k
- ImageNet5k
- 2018年iNaturalist会议
- 场所365-标准
- 加州理工学院-UCSD鸟类-200-2011(CUB-2011)。
实验结果
与有监督的先验学习比较。
首先,与有监督的预训练模型(EfficientNet和ViT)的比较结果如下。
如表所示,弱监督学习模型表现良好,在所有五个下游数据集中排名第一或第二。吞吐量和分类精度之间的权衡也在以下结果中得到了图形说明。
对于有监督预训练的EfficientNet、在IG 3.6B数据集上有弱监督预训练的RegNetY和ViT,ViT显示出较高的分类精度。另外,在研究准确性和吞吐量之间的权衡时,RegNetY显示出良好的特性。
与自我监督的先验学习比较。
我们发现,用数十亿张大图像进行弱监督的预训练可以产生与监督学习相当的性能。这一结果提出了弱监督学习是否比自监督学习有优势的问题,自监督学习更容易扩大规模。
为了回答这个问题,我们对SimCLRv2、SEER和BEiT进行了比较。特别是,SEER是学习范式的一个重要比较,因为该模型是在Instagram图片上训练的。
ImageNet-1k上的结果如下。
如表所示,其性能明显优于最先进的自我监督学习,特别是当样本数量较少时(1%和10%)。(注意,这些结果是从文献中获得的性能,观察到的结果可能会随着预训练模型的数据集大小的增加而改变)。
零起点过渡学习
弱监督模型具有在预训练期间观察各种学习对象的优势。在此基础上,对零点过渡学习进行了实验,以测试其快速学习和识别新视觉概念的能力。结果包括。
应该指出的是,许多因素不同,但所提出的弱监督模型表现得非常好,这表明弱监督学习方法为开放世界的视觉识别模型提供了一条有前途的道路。
摘要
将图像识别中的弱监督预训练与监督学习和自监督学习进行了比较,显示了弱监督学习的优越性。
然而,一些限制因素,包括复杂的学习程序、独特的收集的数据集和复制现有研究所需的巨大的计算工作,使其难以进行控制性实验来测试某些变量的影响。该文件还指出,比较方法的局限性是一个挑战,再加上有些因素是无法用通用指标来确定的,比如弱监督学习可能反映出有害的定型观念。
总的来说,结果表明,弱监督学习方法在图像识别中可以表现得非常好,尽管不同方法之间的比较有一定的局限性。
与本文相关的类别