赶上最新的AI论文

最后,一个用于图像识别的BERT?关于MAE

最后,一个用于图像识别的BERT?关于MAE

Transformer

三个要点
✔️使用视觉变换器(ViT)对CV进行BERT的目标
✔️建议的MAE,在编码器中屏蔽75%的补丁,在解码器中使用变换器
✔️在ImageNet-1k未标记数据上训练的表征首次达到87.8%的准确率

Masked Autoencoders Are Scalable Vision Learners
written by Kaiming HeXinlei ChenSaining XieYanghao LiPiotr DollárRoss Girshick
(Submitted on 11 Nov 2021 (v1), last revised 19 Dec 2021 (this version, v3))
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  
 

 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的 。

简介

在图像识别(CV)领域,深度学习已经取得了巨大的成功(ViT, Vision Transformers的未来工作)。标记的图像在这方面发挥了重要作用。另一方面,在自然语言处理(NLP)领域,自我监督学习已经取得了巨大的成功。例如,有1000亿个参数的GPT-3自回归模型(如何获得GPT-3的最佳效果:提示编程)和掩码自动编码器模型BERT是著名的。

CV和NLP之间的这种差异的起源是什么?本文介绍了一篇分析语言和图像之间差异的论文,并提出了一个掩码自动编码器(MAE)来弥补差距。

去噪自动编码器是CV中的掩码自动编码器之一,已经被研究过一段时间了。然而,它并没有能够填补BERT类流行病在CV中的空缺。可能的原因如下

1.结构上的差异:直到最近,CV一直由卷积网络CNN主导,它从图像的每个区域提取信息,这使得它很难纳入掩码机制。然而,这个问题已经被Vision Transformer(ViT)所解决。

2.信息密度的差异。自然语言是人类产生的,具有高度的抽象性和每单位的高密度信息。因此,在NLP中,掩盖一个词以使其可预测是一项困难的任务,但CV的信息密度是稀疏的。因此,在本文中,我们建议对图像应用非常高比例的掩码。这将产生鼓励困难的预测任务关注更广泛的信息的效果。

3. 解码器在自动编码器中的作用是不同的:在NLP中,解码器使用一个简单的MLP来预测表示空间中的词,而在CV中,它必须重现像素水平。本文中的解码器使用了一个变压器。

基于这三个原因,作者提出了用于图像表示学习的掩码自动编码器(MAE):如果说视觉转移(ViT)是Transformer对CV的直接适应,那么MAE就是BERT对CV的直接适应。如果说Vision Transfer(ViT)是Transformer对CV的适应,那么MAE就是BERT对CV的适应,所以我们期望CV能跟随BERT所带来的NLP革命。 最后,让我给你看看MAE的结果(图2)。

屏蔽式自动编码器(MAE)

MAE是一个从输入的一部分重建其余输入的结构,Encoder将输入投射到潜空间,Decoder是一个AutoEncoder(图1),将输入从潜空间投射到输入空间。下面是对每个人的解释。

首先,图像被划分为没有重叠的斑块,然后高比例(75%)的斑块被随机掩盖。只有未被屏蔽的补丁被输入到MAE编码器(ViT)。对于每个补丁,我们进行线性投影和位置嵌入。

MAE解码器将(1)一个编码的补丁和(2)一个掩码标记作为输入。掩码标记是一个常见的学习标记,代表要预测的补丁。解码器仅用于预训练,可以是任何模型,但MAE使用一个轻量级的变换器,其计算复杂度是编码器的1/10。此外,解码器输出一个256维的矢量,该矢量被转换为16x16,然后用正确的补丁和MSE误差进行训练。

实验

MAE的骨干是ViT-Large/16,它从以前研究中显示的ViT-L/16的76.5%的准确率提高到82.5%,有更强的限制。在我们的实验中,我们将ViT-L/16的准确率从76.5%提高到82.5%,其限制条件比以前的研究中显示的更强。评价。

图像网的消融实验

MAE消融实验的结果显示在表1中。

(a)显示,解码器的深度对tf结果的影响很小,当block=8时,lin(对最后一层进行微调)的结果最好,而ft的总体精度比lin好。如(b)所示,ft的总体精度高于lin,其中解码器的宽度为512。

值得注意的是,(c)表明,不使用遮蔽斑块作为编码器的输入,不仅计算成本低,而且更准确。图5还显示了被遮蔽的斑块的百分比,可以看出,ft的遮蔽率至少为40%,lin的遮蔽率至少为75%,才能达到最佳精度。

(d)研究了重建的目的,并表明投射到离散的令牌上,如dVAE,也是准确的。然而,像素空间的正则化可以提供相当的精度,所以我们采用简单的像素空间。

(e) 考察了数据的扩展,并表明简单的随机尺寸剪裁就能达到很好的准确性。

从(f)中我们可以看出,对掩码进行随机抽样可以得到一个很好的结果,图6显示了不同类型掩码的可视化情况。

 

表2检查了计算时间,显示当解码器的深度为1时,速度提高了约4倍,同时达到相同的精度。最后,图7显示,随着预训练 epochs 数量的增加,准确率仍在增加。

在ImageNet上的比较实验

表3显示了比较方法的准确性,可以看出,MAE是最好的。

图8显示了ViT预训练数据之间的差异。最准确的表述是在JFT300M上训练的表述,而在Image-1K上训练的MAE则与之接近。这显示了用较少的数据和没有标签的情况下训练的MAE的有效性。

图像网的部分微调实验

图9显示了微调层的数量,可以看出,微调到四层对准确率的贡献很大,说明前四层的表示与任务高度相关。

在其他数据集上进行迁移学习实验

由于表征学习的目标,如MAE,是为了适应下游的任务,我们对非ImageNet分类任务(表6)、COCO物体检测(表4)和ADE20K分割任务(表5)进行了实验。

两个表格都显示,MAE已经达到了SOTA。

摘要

本文介绍了Masked AutoEncoder(MAE),它在图像识别中使用ViT来实现类似BERT的模型。它有两个特点:编码器以高比率(75%)遮蔽补丁,以增加任务的难度。解码器使用一个变压器来进行像素级预测。使用后ViT技术,在ImageNet-1K无标签数据集上的预训练表示比有监督的ViT要好87.8%。

我们认为这项研究做出了重大贡献,它表明不使用标签也能学习到好的表征,特别是显示了生成模型在学习图像表征方面的潜力,我们很高兴介绍MAE。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们