赶上最新的AI论文

Vision Transformers有哪些吸引人的特点?

Transformer

三个要点
✔️ 比较视觉变换器(ViT)和CNNs
✔️ 研究与闭塞和扰动的鲁棒性有关的属性,以及形状偏差。
✔️ 调查功能在下游任务中的有效性

Intriguing Properties of Vision Transformers
written by Muzammal NaseerKanchana RanasingheSalman KhanMunawar HayatFahad Shahbaz KhanMing-Hsuan Yang
(Submitted on 21 May 2021 (v1), last revised 25 Nov 2021 (this version, v3))
Comments: NeurIPS 2021

Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的 。

简介

Vision transformers(ViTs)在各种计算机视觉任务中表现出优异的性能。在这篇文章中,我们深入研究了CNN和ViT在ViTDeiTT2T三种方法的鲁棒性和泛化性能方面的差异,并发现了ViT的一些有吸引力的特性。让我们来看看下面的内容。

论视觉变换器对遮挡的鲁棒性

首先,为了研究ViT对遮挡(阻断)的鲁棒性,我们对图像缺失部分的情况进行了实验。(在下文中,除非另有提及,我们将把ViT、DeiT、T2T等的所有变体统称为ViT)。这里我们将使用简单的遮蔽作为闭塞的例子。

首先,考虑输入图像$x$的标签为$y$且$x$由$N$斑块组成的情况(ViT通常将图像分为16x16 14x14斑块)。现在我们创建一个闭塞图像$x'$,其中一些斑块($m<n$)的像素值被设置为零(这种技术被称为PatchDrop)。

这里生成的图像将看起来像这样

(在这张图片中,它是半透明的黑色,但在现实中它将完全被黑色填满)。

我们还应用了三种主要的遮蔽方法。

  1. Random PatchDrop: 选择并丢弃一批随机的$M$。
  2. Salient(foreground) PatchDrop: 使用DINO来丢弃一组包含图像中最重要的$Q$%前景信息的补丁。(如图例中,这个$Q$%不一定对应于像素数的百分比)。
  3. Non-Salient(background) PatchDrop:使用DINO来丢弃一组包含图像中低$Q$%前景信息的补丁。(如图例中,这个$Q$%不一定对应于像素数的百分比)。

对于以这种方式创建的闭塞图像$x'$,我们研究是否可以做出正确的预测$f(x')_{argmax}=y$。

如果我们将信息损失定义为缺失斑块的比例$frac{M}{N}$,那么ViT对遮挡的稳健性如下所示

将ViT与CNN模型中强大的基线ResNet50相比较(左图),ViT模型显示出对CNN模型的高鲁棒性。

例如,当Random PatchDrop去除总图像的50%时,ResNet50(23M参数)显示的准确率为0.1%,而Deit-S(22M参数)显示的准确率为70%。这些结果在所研究的ViT架构中是一致的,表明ViT对随机、前景和背景遮蔽表现出了出色的鲁棒性。

补充研究

为了更详细地研究ViT与闭塞有关的行为,我们还将每层的注意力图可视化,如下所示

被遮盖的区域如下图所示。

图中显示,在早期的图层中,整个图像是注意力的焦点,而随着图层的深入,注意力往往集中在没有遮挡的区域。

此外,我们还计算了ViT CLS标记和特征随着闭塞的存在而变化的相关系数。

表中显示了CLS标记的相关系数,图中显示了每个超类的相关系数。

总的来说,ViT被发现有一个更稳健的特征集,在闭塞的情况下,其代表性没有明显变化。

ViT能否捕捉到形状和纹理?

下一步是研究ViT对形状和纹理的理解能力。

没有局部纹理的学习

我们首先研究了在一个没有本地纹理信息的数据集上训练ViT模型的情况。

在这里,我们从ImageNet中创建了一个剥离了局部纹理信息的数据集(SIN),并使用它来训练ViT模型。我们不使用任何数据增强技术,以确保有关几何体的信息不会改变。

该模型的形状偏差分析结果(基于物体形状的正确决策比例)如下所示。

在左边的图中,显示了形状和纹理偏差之间的权衡。

我们可以看到,与CNN模型相比,ViT倾向于表现出更高的形状偏向,而在常规数据集上训练的模型则偏向于纹理。

在用SIN训练的模型中,ViT显示出与人类判断相当接近的形状偏差,这表明ViT具有很高的捕捉形状的能力。右图还显示了各种模型的形状偏差,显示ViT的形状偏差比ResNet高。

具有高形状偏压的ViT的进一步特性

具有增强形状偏差的ViT的一个有吸引力的特性是,它可以通过将ViT的注意力强烈地集中在图像中的前景物体上而自动进行前景分割。

这里,图中的(Distilled)指的是使用以下程序对ViT进行蒸馏,并加入Shape token(形状蒸馏,详见原始论文)。地面实况和获得的分割图的Jaccard系数的结果可以总结在下表中。

这些结果表明,ViT可以有一个很好的形状偏差,接近于人类的能力。

关于对自然和敌对干扰的稳健性

接下来,我们研究了对雨、雾、雪和噪音等扰动的稳健性。在这种情况下,ViT或CNN的mCE(平均腐败误差)如下(数字越小越好)。

对抗性补丁攻击特定样本攻击的结果显示如下。

总的来说,ViT被证明比CNN对自然和对抗性的扰动更加稳健。

论ViT对特征提取的有效性

最后,我们研究了使用ViT作为特征提取的骨干的有效性。

具体来说,我们将ViT每个区块的CLS标记连接起来,并训练一个线性分类器。

图像分类或少许拍摄学习基准的结果如下

图中DeiT-S(合奏)显示了CLS标记在最后四个区块的使用。一般来说,ViT已被证明对下游任务的特征提取是有效的。

摘要

自从用于视觉任务的Transformer问世以来,Transformer与CNN的辩论一直很活跃。

在这篇文章中,我们讨论了一篇显示ViT相对于CNN的优势的论文,包括对遮挡和扰动的鲁棒性,与形状偏差有关的属性,以及作为特征提取器的有效性。最近,有一些基于MLP的模型显示出卓越的性能,我们期待着进一步讨论视觉任务中的架构差异。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们