SegFormer: Segmentation With Transformer

分段 18/04/2022

三个要点
✔️ 开发了一个基于Transformer的分割模型，SegFormer，。
✔️ 编码器使用层次化的Transformer来输出多尺度特征，而解码器则使用一个简单的MLP来结合每个输出，以输出高级的表示数量。
✔️ SegFormer记录了SOTA，尽管与传统方法相比其计算成本较低。

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
written by Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo
(Submitted on 31 May 2021 (v1), last revised 28 Oct 2021 (this version, v3))
Comments: Accepted by NeurIPS 2021
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

背景

语义分割是计算机视觉的主要研究领域之一，有多种应用。与普通的图像分类不同，它在像素层面上进行分类。目前，主要的模型是基于FCN（全连接网络），存在各种推导。此外，由于其与图像分类的亲和力，随着图像分类的进展，更好的骨干架构也被研究出来。另一方面，最近Transformer在自然语言处理领域的成功，导致人们试图将Transformer也应用于图像识别。因此，在本文中，我们开发了SegFormer，一个基于Transformer的分割模型，考虑到了效率、准确性和鲁棒性。

技术

SegFormer包括（1）一个分层的Transformer编码器，产生高分辨率和低分辨率的特征；（2）一个轻量级的MLP解码器，结合这些多尺度的特征，产生一个分割掩码，如下图所示。在这里，给定一个$H\times W\times 3$的图像，它被分割成$4\times 4$的斑块。然后这些被用作编码器的输入，编码器输出{$1/4, 1/8, 1/16, 1/32$}比例的原始图像大小的特征。这些特征被放入解码器，最终预测出一个$frac{H}{4} \frac{W}{4} \times N_{cls}$的分割掩码。然而，$N_{cls}$是类别的数量。

层次化的变压器编码器

本文设计了一系列混合变压器编码器（MiT），MiT-B0至MiT-B5。它们具有相同的结构，但尺寸不同，MiT-B0是最轻和最快的猜测，MiT-B5是最大和最好的性能。

分层特征表示

与生成单一分辨率特征图的Vision Transformer（ViT）不同，该模块旨在生成多尺度特征，如CNN。这是因为高分辨率和低分辨率的特征通常会提高语义分割的性能。更确切地说，给定一个$H\times W\times 3$的图像，进行补丁合并以生成$frac{H}{2^{i+1}} \times \frac{W}{2^{i+1} \times C_i$ 特征$F_i$。然而，$i\in{1,2,3,4\}，C_{i+1}>C_i$。

重叠补丁合并

给定一个补丁图像，ViT中的补丁合并过程是将一个$N乘以N乘以3$的补丁变成一个$1乘以1乘以C$的矢量。这是通过将$F_1(\frac{H}{4} \times \frac{W}{4} \times C_1)$转换为$F_2(\frac{H}{8} \frac{W}{8} \times C_2)$而模仿的。这个过程被设计为结合非重叠的图像，所以不能保留局部的连续性。因此，进行了重叠补丁合并，调整了内核大小、跨度和填充大小，以产生相同大小的特征。

高效的自我关注。

编码器计算的瓶颈是自我注意层。在传统的多头自我注意过程中，注意力的估计方法如下。

$$Attention(Q,K,V)=Softmax(\frac{QK^T}{sqrt{d_{head}}) V$$

然而，$Q,K,V$是$N次C$维的向量，$N=H次W$。这个计算复杂度是$O(N^2)$，所以它不能应用于大型图像。因此，为了减少序列长度，引入了以下过程。

$$hat{K}=Reshape(\frac{N}{R}, C\cdot R)(K)$$

$$K=Linear(Ccdcdot R, C)(`hat{K})$$。

然而，$K$是要减少的序列，$Reshape(\frac{N}{R}, C\cdot R)(K)$将$K$转换为大小为$frac{N}{R}\times (C\cdot R)$，$Linear(C_{in}, C_{out})(\cdot) $是$C_{in}$维的张量到$C_{out}$维的张量，代表输出$C_{out}$维张量的线性层。R$是还原率，将计算复杂性降低到$O(\frac{N^2}{R})$。