赶上最新的AI论文

从ImageNet训练中获得的稳健性能否用于过渡学习的下游任务?

健全的

三个要点
✔️ 建筑差异与稳健性转换有关
✔️ 转化器架构在所有层都被重新训练的条件下,比具有数据增强功能的CNN更有效。
✔️ 从ImageNet过渡到图像分类比物体检测或语义分割更难。

Does Robustness on ImageNet Transfer to Downstream Tasks?
written by Yutaro YamadaMayu Otani
(Submitted on 8 Apr 2022)
Comments: 
CVPR 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

近年来,关于图像识别模型的研究非常多。
其中。
ImageNet是一个重要的基准,ImageNet已经被用于已经出现了许多模型和学习技术。

这个...对照ImageNet的准确率被认为是衡量机器学习系统进展的一个代表,但已经发现了一个问题,即存在缺乏稳健性的问题,当图像中加入噪声时,模型的准确性会显著下降。

提高模型的稳健性以解决这些问题的一个方法是通过数据增强(ANT、AugMix、DeepAug,等等。).
数据增强的目的是通过用额外的数据训练来提高模型的稳健性,这些数据通过对原始训练数据进行某种转换而被人为地破坏。

到目前为止,大多数旨在提高模型鲁棒性的研究,包括数据扩展,都是根据ImageNet中准确性的变化来验证模型的鲁棒性。另一方面,在实际利用模型的情况下,转移学习通常用于利用已经在ImageNet等大型数据集上预先训练过的模型的特征提取能力。
在迁移学习中,原始图像识别模型的准确度越高,则模型提取特征的能力就越高,因而据悉,转移学习后的准确率为然而,关于转移学习的效果,专注于鲁棒性的研究还不多。

因此,在本研究中,我们建议开发"的模型在关键的图像识别数据集上是高度稳健的。如果我们使用在主要图像识别数据集上高度稳健的模型的预训练参数进行迁移学习,那么该模型对下游任务是否也一定稳健?研究是针对 "该模型对下游任务是否一定稳健?"的问题集进行的。

在接下来的章节中,在简单介绍了过渡学习和作为先验知识的ViT(视觉转化器)之后,将介绍实验和结果。

什么是迁移学习?

在迁移学习中,通过转移以前在某些数据上训练过的模型的参数,重新使用以前训练过的模型。
这里,以前训练的数据是源数据,以前训练源数据的模型是源模型。

接下来要学习的数据是目标数据,要学习的模型是目标模型。

模型能够通过学习检测出源数据的特征,通过重用源模型,学习可以从源数据的共同特征可以从目标数据中检测出来的状态开始从而 使得用少量的学习就可以建立一个高度精确的模型这种方法可以通过少量的学习来建立高度精确的模型。

如下图所示,有两种类型的转移学习,在不同情况下使用:一种是不更新源模型的参数,用目标数据来更新所有的参数,但从源模型中挪用的部分除外;另一种是用目标数据重新训练所有层。

什么是ViT(视觉转化器)?

什么是ViT(视觉转化器)?一张图片抵得上16×16个字:用于图像识别的规模化变压器ViT(Vision Transformer)是一个用于图像识别的架构,提出于2008年。它将自然语言处理中使用的变形器用于图像识别任务,其结构如下图所示。

ViT是一个ImageNet/。ImageNet-Real任务,但也成功地将计算复杂度降低到SoTA模型的1/15,近年来吸引了很多人的关注。


以前的研究和研究目标

瑞安变压器之前的一项研究使用Swin Transformer比较了Swin Transformer和CNN在ImageNet-C(应用了变换的ImageNet图像,见下面的参考图片)上的准确性。斯温变压器是优于CNN的。现将结果报告如下。

从前面的研究结果中可以得出以下结论这表明ViT比CNN更耐受噪音的影响。
另一方面,也有报道称,当对CNN训练的数据使用数据扩展时,其准确性与Swin Transformer相当。

从这些结果来看,本文的实验是为了证实以下两点

  • 在过渡学习过程中,使用数据增强的CNN能否将鲁棒性转移到下游任务?
  • 哪些数据扩展或架构差异会影响稳健性转换?

实验条件/内容

实验条件

对于ImageNet-1k,两个CNN,一个使用数据扩展方法ANT预训练,另一个使用数据扩展方法使用DeepAug和AugMix预训练的CNNs,以及使用ImageNet-1k预训练的Swin变换器。
然而。
没有使用数据扩展来预训练Swin变换器。

这里,使用ResNet50(参数数:25M)作为CNN,以保持模型大小在同一水平上,使用Swin Transformer作为实验中分别使用了Swin Transformer-Tiny(参数数:28M)。
Mask-RCNN用于物体检测任务,UperNet作为头部用于语义分割任务。

实验细节

衡量ImageNet分类模型在转移性能方面对下游任务的稳健程度。
为了衡量稳健性向下游任务的转移性能,...。ImageNet-C这项研究的结果被用来衡量鲁棒性向下游任务的转移性能,15种不同的转换图像被归入《中国》中介绍的四个类别。这些模型在15个不同的转换图像上进行了评估,这些图像被分为四类:"噪声"、"模糊"、"天气 "和 "数字"。当模型在15个不同的转换图像上被评估时,准确率为与清洁图像的准确度相比。ImageNet分类模型对噪声的稳健性是通过计算与干净图像的准确度相比下降多少来衡量的。结果显示在表1中。
具体来说,下面的两个方程式定义了模型的平均性能下降和相对性能,并被用来评估稳健性。
此外,这里用于下游任务的数据集是用于物体检测的MS-COCO,用于语义分割的ADE20K和用于图像分类的CIFAR-10。

结果和讨论

首先,在过渡学习中实验结果显示,当使用一种方法时,源模型的参数没有被更新,但目标数据被用来更新所有的,但从源模型中挪用的部分。
上图总结了物体检测任务的准确性损失,而下图总结了语义分割任务的准确性损失。
下表总结了语义分割任务的准确性下降情况。
在此,每种方法的设置如下。

  • ResNet50在Regular:ImageNet(干净的图像)上进行了预训练,作为源模型。
  • ANT:ResNet50使用由ANT(一种数据增强方法)转化的数据作为源模型进行预训练。
  • DeepAug+:ResNet50使用由数据增强方法DeepAug+转化的数据作为源模型进行预训练。
  • Swin-T:Swin Transformer-Tiny作为源模型在ImageNet(干净图像)上进行了预训练。

结果证实,使用数据增强(DeepAug+,ANT)的CNN比常规的更稳健,准确率损失程度更低。
Swin-T对一些噪音的抵抗力也比
与使用数据增强的CNN相比,其精确度更高。
除此以外。
Swin-T有时优于使用数据增强的CNN的事实表明,架构差异与鲁棒性转换有关。

第二,在过渡期学习中使用目标数据对所有层进行重新训练后的实验结果如下。
重新训练所有的层可能会导致源模型的鲁棒性的损失,在第一次实验的某些条件下
由于Swin-T的表现优于使用数据增强的CNNs变换器架构也可以被认为比使用数据增强的CNN更有效。

具有数据增强功能的CNN(DeepAug+,ANT)显示出比常规更低程度的准确性下降。结果证实,它是高度稳健的。
这也证实了Swin-T显示出比ANT略高的稳健性。
此外,Swin-T在物体检测和语义分割方面表现得最好。
这表明DeepAug+和ANT在将ImageNet-C的鲁棒性转移到下游任务上的能力不如Swin-T,而在所有层都被重新训练的条件下。结果也证实,Transformer架构比CNN使用数据增强的效果更好。.

我们还测试了ImageNet-C对CIFAR10的鲁棒性,发现使用数据增强的CNN的表现并不优于常规。
这表明,从ImageNet到图像分类的过渡,而不是对象检测或语义分割,是被认为是更困难的。

摘要

本研究调查了 "如果一个在主要图像识别数据集上具有高鲁棒性的模型使用预先训练的参数进行迁移学习,该模型是否一定对下游任务具有鲁棒性?"的问题集。

实验结果表明,对于固定的特征转换学习,ImageNet骨干的鲁棒性在下游任务中得到了部分保留。
然而,对于更实际的过渡学习,即所有层都被重新训练,发现Transformer架构的贡献比数据扩展对CNN的影响更重要。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们