赶上最新的AI论文

什么是AI-SCHOLAR？

自我监督学习提高了自我监督学习!

自监督学习 20/06/2022

三个要点
✔️ 为分层、自我监督学习提出的分层预训练（HPT）
✔️ 在16个不同的数据集上进行验证实验
✔️ HPT使学习速度提高80倍，并提高了鲁棒性

Self-Supervised Pretraining Improves Self-Supervised Pretraining
written by Colorado J. Reed, Xiangyu Yue, Ani Nrusimha, Sayna Ebrahimi, Vivek Vijaykumar, Richard Mao, Bo Li, Shanghang Zhang, Devin Guillory, Sean Metzger, Kurt Keutzer, Trevor Darrell
(Submitted on 23 Mar 2021 (v1), last revised 25 Mar 2021 (this version, v2))
Comments: WACV 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

众所周知，自我监督学习（SSL）在各种图像识别任务中是有效的。然而，它需要大量的数据和计算能力，以充分发挥其能力。

因此，在很多情况下，会使用之前在ImageNet中自我监督和训练过的模型，如下图所示。

然而，众所周知，当一个已经在ImageNet中经过自我监督和训练的模型被转移到一个新的图像识别任务中时，如果任务中使用的图像（如医学图像或航空照片）具有与ImageNet中不同的特征，则性能会下降。

本文提出了分层预训练（HPT），一种分层的自我监督学习方法来解决这个问题，如下图所示：HPT迭代地对基础数据进行SSL，对源数据进行SSL，对目标数据进行SSL，以此类推。我们的想法是以这样的方式迭代执行SSL，使其逐渐接近预期的任务。

这里，基础数据指的是一个大的数据集（ImageNet），源数据指的是一个相对较大的、与目标数据有类似特征的数据集，而目标数据指的是目标任务中的数据集。在本文中，通过在多达16个不同的数据集上进行验证实验，证实了HPT的有效性。描述了验证HPT有效性的实验及其结果。

实验装置

数据集

实验中共使用了16个数据集，包括五个领域。

比较法

它比较了四种具有不同SSL过程的方法，包括HPT。MoCo-v2也被用来作为SSL。

基础：SSL使用ImageNet（但只有批量规范化层使用目标数据更新）。
目标：带有目标数据的SSL。
HPT（建议的方法）：使用ImageNet的SSL->（使用源数据的SSL）->使用目标数据的SSL。
HPT-BN：使用ImageNet的SSL->（使用源数据的SSL）->使用目标数据的SSL，只在批量规范化层更新。

实验结果

分离性分析

使用用SSL学习的特征来验证线性判别识别的结果。

一个以SSL学习的特征作为输入的线性判别器被用于带标签学习。线性判别器本身的性能并不十分强大。因此，SSL提取的特征越好，线性判别器的性能就越好。

实验结果如上图所示。目标数据显示在每个图表的上方，横轴代表线性判别器的更新次数，纵轴代表其性能（准确度或AUROC）。

在这个实验中，HPT和HPT-BN中没有进行按源数据的SSL，而是按ImageNet→按目标数据的SSL。实验结果证实了以下几点

HPT在16个数据集中的15个上收敛了，其性能等于或优于Base和Target。
HPT在学习上的收敛速度比Base和Target快80倍。(HPT在5千步内收敛，基础和目标在40千步内收敛）。
在DomainNet快照中，HPT的性能不如Target，这可能是由于ImageNet和DomainNet快照之间的特征差异较大。

半监督的可转移性

研究了每种方法在进行半监督学习时的表现。

在进行自我监督学习后，使用从目标数据中随机选择的1000个标记数据进行微调。然而，每个班级的一个数据被选入其中。

上图显示了实验的结果，其中B代表基地，T代表目标。

另外，在这个实验中，HPT和HPT-BN中没有进行源数据的SSL，而是通过ImageNet→目标数据的SSL。

实验结果证实了以下几点

HPT在16个数据集（不包括DomainNet quickdraw）中的15个数据集上收敛了性能，高于Base和Target。
HPT-BN的性能并没有超过HPT。

循序渐进的预培训转移性

研究了每种方法在进行转移学习时的表现。

上图显示了实验结果，其中B代表基础数据的SSL，S代表源数据的SSL，T代表目标数据的SSL。例如，B+S代表SSL与ImageNet→SSL与源数据，B+S+T代表SSL与ImageNet→SSL与源数据→SSL与目标数据。

此外，所使用的源数据和目标数据显示在每个图表的顶部。例如，左边的图表显示，ImageNet被用作基础数据，Chexpert作为源数据，Chet-X-ray-kids作为目标数据。实验结果证实了以下几点。

当SSL与B+S+T（即HPT）一起进行时，取得了最佳性能。

扩增的稳健性

测试了执行SSL时对数据扩展的稳健性。在使用较少类型的数据扩展的情况下执行SSL，并使用训练后获得的特征，用线性判别器进行判别。

使用的五个数据扩展是RandomResizedCrop、ColourJitter、Grayscale、GaussianBlur和RandomHorizontalFlip。

另外，在这个实验中，HPT中没有进行源数据的SSL，而是通过ImageNet→目标数据的SSL。

上面的数字说明了实验的结果。在每个图表中，使用的数据扩展类型随着向右移动而减少。实验结果证实了以下几点

与Target相比，HPT在使用较少数据扩展的情况下保持了较高的性能。
随着使用的数据扩展数量的减少，HPT在Chexpert数据上的表现（见右图）有所下降，但并没有低于Target的表现。

预培训数据的稳健性

测试自监督学习中使用的目标数据对数据数量的稳健性。

上面的数字显示了实验的结果。在每张图中，SSL中使用的目标数据的数量随着你向右走而增加。实验结果证实了以下几点

对于较少的可用数据，HPT优于其他方法。
当可用数据的数量少于5k时，HPT-BN优于其他方法。

摘要

在这篇文章中，介绍了分层SSL的HPT。通过验证性实验，我们发现HPT是一种简单而强大的方法。由于HPT是一种实用的方法，易于实现，并节省了数据和计算，我们期待着它的进一步发展。

与本文相关的类别

Shumpei Takezaki

如果您对文章内容有任何改进建议等，请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系，我们将非常感激。