简单得令人尴尬的 "视觉变压器"。

Transformer 04/01/2022

三个要点
✔️ ViT的核心是一个名为MetaFormer的元结构。
✔️ 提出了PoolFormer，它使用一个没有参数的池化层。
✔️ PoolFormer与参数较少的比较方法相比，实现了更高的准确性

MetaFormer is Actually What You Need for Vision
written by Weihao Yu, Mi Luo, Pan Zhou, Chenyang Si, Yichen Zhou, Xinchao Wang, Jiashi Feng, Shuicheng Yan
(Submitted on 22 Nov 2021 (v1), last revised 29 Nov 2021 (this version, v2))
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

简介

2021年的热门话题之一是Vision Transformer（终于，ViT来到了视频识别领域），其内容是在各种任务中更新SOTA。从那时起为什么ViT做得这么好？有很多分析都是关于

请看参考图右边的架构。人们普遍认为，Transformer结构中的Attention是令牌信息混合的重要部分。因此，Attention的计算复杂度O(N^2)是一个瓶颈，人们已经做了很多工作来降低其复杂度。

然而，在2021年3月，谷歌的研究人员透露，只需使用MLP而不是Attention，就有可能实现类似SOTA的准确度（没有Attention，变形金刚能用吗？）此后，利用MLP对变形金刚的研究变得越来越热门。ViT的内在重要性是什么？这进一步加深了这个谜团。

在这篇文章中，我们介绍了试图回答以下问题的研究：'代币信息混合的架构是否真的是ViT成功的关键？本文介绍了一项试图回答这一问题的研究。

结果是令人震惊的，但"我不关心Token信息的混合！"。我不关心代币信息的混合，我只关心汇集层，只要信息是共享的！"。这是一个令人震惊的结果，但它表明这个令人尴尬的简单（作者描述为令人尴尬的简单）Pooling层被用来通过一些实验来证明PoolFormer的有效性。

在接下来的第2节中，我们介绍了所提出的方法，然后在第3节中我们介绍了关键的实验。

建议的方法

元数据格式化器

在本文中，我们提出了一个新的概念，叫做MetaFormer，如图（a）所示。

MetaFormer是一个架构概念，而不是一个具体的架构。也就是说，所有满足（a）MetaFormer所示元结构的元结构，例如，使用迄今为止研究的Attention结构的Transformer，使用MLP的类似MLP的模型，以及使用本研究提出的Pooling层的PoolFormer，都称为我们称它们为MetaFormers。

MetaFormer非常简单。首先，对输入I进行补丁嵌入，得到X（公式1）。

接下来，X被规范化并被送入Token Mixer，它融合了X的每个补丁之间的信息。这里，残余的连接被用来获得Y（公式2）。Token Mixer融合了X的每个Patch之间的信息，这里我们用剩余的连接来获得Y（公式2）。

此外，在对Y进行正则化并通过MLP和激活函数后，输入和输出通过一个残差连接（公式3）。

池子的形式

MetaFormer类似于Python语言中的抽象类的概念：PoolFormer是（等式2）中TokenMixer的Pooling层实现，只是MetaFormer的一个实例化。

汇总只是输出K*K值的平均值。然而，（公式4）结尾处对T的减法是为了调整后来的剩余连接（公式2的+X）。从方程4可以看出，我们用没有学习参数的Pooling代替了Attention的初始计算复杂度O(N^2)。

对本文提出的架构的介绍到此为止，我们希望你也发现它简单得令人目瞪口呆。最后，我们附上Pytorch的示例代码和图2供您参考，图中显示了从输入到输出的类型变化。

实验：测试MetaFormer的有效性

图像分类

实验是在ImageNet-1K上进行的（1K分类有130万张训练图像和50万张验证图像），使用了四个不同的数据扩展：MixUp、CutMix、CutOut和RandAugment。率=0.05，批次大小=4096，学习率lr=0.001*批次大小/1024，我们训练了300个epochs。我们还使用了一个余弦时间表，热身时间=5，以减弱学习速度。我们还设置了标签平滑度=0.1，见（标签平滑度背后的真相！）。以了解更多关于标签平滑的信息。

在对实验装置进行了长时间的介绍之后，结果显示在表2中，其中的模型是根据Token Mixer进行分组的。我们按Token Mixer对模型进行分组，评估指标为Params (M)、MACs (G)和Top-1准确率(%)。RSB-ResNet是 "ResNet Strikes Back "训练方法的改进版，已经训练了300个epochs。

表2的最后一块显示了"参数数量少的高精确度 "的结果。例如，一个具有21M和31M参数的小型PoolFormer实现了80.3%和81.4%的Top-1准确性，这比大多数基于注意力和基于MLP的Metaformers要好。

此外，从图3的视觉效果来看，可以清楚地看到PoolFormer以较少的计算MAC和参数实现了比比较方法更高的精度。