赶上最新的AI论文

变压器在密集的预测任务中实现了高精确度!

Transformer

三个要点
✔️密集的预测任务骨干力量使用视觉变压器作为
✔️在密集的预测任务中,使用CNN 骨干力量在密集的预测任务上
✔️在几个数据集上实现了SOTA,NYUv2,KITTI,ADE20K,Pascal Context。

Vision Transformers for Dense Prediction
written by René RanftlAlexey BochkovskiyVladlen Koltun
(Submitted on 24 Mar 2021)
Comments: Accepted to arXiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

首先

卷积神经网络(CNN)是许多模型的主干。大多数架构可以粗略地分为两个部分:编码器和解码器。编码器通常是一个在大型数据集(如ImageNet)上预先训练好的模型;CNN编码器对特征图进行渐进式降样,允许提取不同尺度的特征。这种下采样减少了解码器中的计算的内存成本,但造成了解码器无法恢复的信息损失。

在本文中,我们提出了密集预测变换器(DPT)。它是基于使用视觉变换器(ViT)作为编码器的想法。事实证明,密集预测得益于ViT和全局接收场的一次性初始下采样。我们在两个预测任务上测试了该方法,即单眼深度估计(性能提高28%以上)和语义分割,并能够建立一个新的技术水平。

建议的模式。DPT

ViT与原来的变压器模型非常相似。唯一的区别在于第一个图像处理层。它使用多个块,每个块都有一个多头自觉层和前馈层。 图像被分为几个不重叠的斑块,这些斑块被压扁,并使用学习的线性层进行转换。例如,一个384x384的图像被分成16x16的斑块,每个斑块被压扁为24x24=576的尺寸。另一个图像处理层使用ResNet-50架构来提取特征图,然后将其作为转化器的特征。(欲了解更多信息,请参见这篇文章。)

转换器是不变的,有必要通过位置嵌入将位置信息添加到输入序列中。此外,一个名为Readout token(上图中的红色)的特殊标记被添加到序列中,其表示法被用于分类。然后,输入令牌被用来对L变频器有三种类型的ViT:ViT-base、ViT-Large和ViT-Hybrid。 ViT-base和ViT-Large分别使用12和24个字母。变频器层将扁平化的斑块分别转化为768和1024维度,而ViT-Hybrid使用ResNet-50计算图像嵌入,并以输入图像的1/16的分辨率提取特征。

卷积解码器

这个解码器从四个不同分辨率的任意转换层(ViT-large的层{5,12,18,24},ViT-base的层{3,6,9,12},以及ViT-Hybrid的{嵌入网络的第一和第二ResNet块的特征,9,12})组装输出令牌。我们从以下方面对输出标记进行组合从这些输出标记中,我们使用一个简单的三步重建操作来恢复一个类似图像的表示。

其中s是修复表示的输出尺寸与输入图像尺寸之比,D'是输出特征维度。

如中图所示。Np+1代数首先由Np符号,然后将其连接起来形成图像。有三种方法可以做到这一点。Readignore,忽略已读标记;Readignore,将已读标记添加到所有其他标记中。阅读增加它将读取的标记与所有其他标记连接起来,而MLP(线性层+GELU)则将读取的标记与所有其他标记连接起来。阅读项目到原始特征维度D。

令牌被串联和塑造 (H/p)x(W/p)xD形状 (H/s)x(W/s)xD'。1×1卷积将输入表示投射到D'(256)维;3×3转置卷积是对s≥p进行的,而3×3卷积是对s<p进行的,分别进行空间上采样和下采样。

如最右图所示,解码器使用基于RefineNet的特征融合块。表征在每一步都被逐渐放大,以便最终的表征尺寸是输入图像尺寸的一半。 DPT架构可以处理各种输入尺寸,只要它们能被p整除。对于所有的图像,位置嵌入可以被线性插值到适当的大小。

实验

我们在两个主要的预测任务上评估DPT:单眼深度估计和语义分割。我们选择了单眼深度估计(MDE),因为转化器在更多的数据下工作得很好,而且很容易从现有的MDE数据集中建立大量的元数据。

我们在MIX 6上训练DPT模型,这是一个包含超过150万张图片的元数据集。上表显示了一些未知的MDE例子的零点转移的结果。该模型优于其他SOTA模型,包括MiDaS模型;MiDaS在MIX 6数据集以及数据集的大小上进行了训练,但仍然无法优于DPT模型。

我们在较小的数据集NYUv2(左)和KITTI(右)上对DPT模型进行了微调,DPT-Hybrid在这两个数据集上都相当高。

上表显示了ADE20K上的语义分割基准的结果:DPT模型被训练了240个epochs;DPT-Hybrid的表现优于其他所有模型,但DPT-Large的表现略差,可能是因为数据集的规模相对较小。性能会下降。关于我们实验的更多细节,请参考原始论文。

摘要

实验结果表明,DPT模型对密集型任务是有效的;DPT能够在几个基准上提高技术水平,并且像其他基于变压器的架构一样,被发现在大数据集上表现更好在未来,我们将专注于实例细分。在未来,我们还需要评估DPT模型在其他密集任务上的表现,如实例分割(使用COCO基准),并努力将DPT的有效性应用到更小的数据领域。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们