ACC-UNet：2020 年代完全复杂的 UNet

神经网络 17/04/2024

三个要点
✔️ 通过引入新的卷积块和跳过传统 UNet 的连接，提出一种新的全卷积 UNet
✔️ 所提出的 UNet 既能利用 CNN 的归纳偏置，又能利用 Transformers 的全局特征提取能力
✔️ 在 5 个不同任务中实现 UNet 的 SOTA 精确度

ACC-UNet: A Completely Convolutional UNet model for the 2020s
written by Nabil Ibtehaz, Daisuke Kihara
(Submitted on 25 Aug 2023)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

过去十年的特点是引入了视觉转换器，这是计算机视觉领域的一次根本性范式转变。医学成像领域也出现了类似的趋势，其中最有影响力的架构之一 UNet 就是利用转换器重新设计的。

最近，ConvNext 等开创性工作重新审视了卷积模型在视觉领域的有效性。受这些研究成果的启发，我们的目标是改进纯卷积 UNet 模型，使其性能与 Swin-Unet 和 UCTransNet 等基于变换器的模型不相上下。

在这篇评论文章中，我们考虑了基于变压器的 UNet 模型的几个优点，主要是提取全局特征和跨级跳转连接的能力。我们通过卷积运算来模拟它们，并提出了 ACC-UNet，这是一种完全卷积的 UNet，它兼具两种方法的优点，即卷积固有的感应偏差和提取变压器全局特征的能力。

ACC-UNet 在五个不同的医学图像分割基准上进行了评估，其性能始终优于卷积网、变换器及其混合体。值得注意的是，ACC-UNet 在模态得分方面分别比最先进的模型 Swin-Unet 和 UCTransNet 高出 2.64 ± 2.54% 和 0.45 ± 1.61%，而使用的参数仅为它们的一小部分（59.26% 和 24.24%）。是

建议方法

ACC-UNet 一览

整体概览如图 1-A 所示。建议的方法用引入自注意的 HANC 块取代了传统的 U-Net 卷积块。此外，传统的简单跳转连接也被 MLFC 模块取代，后者考虑到了不同编码器级别的特征图。下面各小节将详细介绍 HANC 和 MLFC 模块。

分层聚合邻里情境（HANC）

首先，我们考虑了如何在卷积块中引入长程依赖关系并提高其表达能力。为了降低计算复杂度，我们只使用逐点卷积和逐深卷积。

为了提高表示能力，建议在卷积块中加入一个反向瓶颈。这可以通过逐点卷积将通道数从 cin 增加到 cinv = cin∗invf来实现。由于这些额外的通道增加了模型的复杂度，因此采用 3x3 逐深卷积来降低计算复杂度，如图 1-B 所示。

为了提高提取全局特征的能力，在卷积块中模仿了自注意力。它主要是将一个像素与其邻近的其他像素进行比较。这种比较可以通过与邻近像素的平均值和最大值进行比较来简化。将邻近像素特征的平均值和最大值相加，就可以得到邻近比较的近似概念。然后，在逐点连续卷积的基础上考虑这些因素，并捕捉对比视角。由于分层分析有利于图像，因此这种聚合是在多层次上分层计算的。例如，2k-1 x 2k-1 补丁。

拟议的 HANC 将特征图 x1∈R cinv,n,m 扩展为 x2∈R cinv∗(2k-1),n,m（图 1-B）。 || 表示沿信道维度的连接。

然后，与变换器一样，在卷积块中加入捷径连接，以改善梯度传播。因此，再进行一次点式卷积，将通道数减少到 cin，并添加到输入特征图中。因此，x2∈ R cinv∗(2k-1),n,m 变成了 x3∈ R cin,n,m（图 1-B）。

最后，将输出数改为 c_out 作为输出。为此，采用了逐点卷积法（图 1-B）。

多级特征编译 (MLFC)

接下来，我们将研究基于变压器的联合国数据集的另一个优势--多级特征组合的可能性。

基于变压器的跳转连接可有效融合编码器层面的特征，并确保在各个解码器上对特征图进行适当过滤。这可以通过连接不同级别的标记来实现。

本文沿用了这一方法，通过调整不同编码器级别的卷积特征图的大小，将其合并为相同大小。然后合并来自不同语义层的特征图，并通过逐点卷积操作将其汇总。然后再与相应的编码器特征图相结合，通过另一次卷积来整合信息。

对于来自四个不同层级的特征 x1、x2、x3 和 x4，特征图谱将丰富多层级信息，如下式所示（图 1-D）。

这里，resizei(xj) 是将 xj 调整为 xi 大小的操作，ctot = c1 + c2 + c3 + c4。该操作对所有不同层级分别执行。

试验

数据集

为了评估 ACC-UNet 的性能，我们在五个不同任务和模式的公开数据集上进行了实验：ISIC-2018（皮肤科，2594 幅图像）、BUSI（乳腺超声波，437 幅良性图像和 210 幅恶性图像）、CVC-ClinicDB（结肠镜检查，612 幅图像）、COVID（肺炎病灶分割，100 幅图像）和 GlaS（腺体分割，85 幅训练图像和 80 幅测试图像）、612幅图像）、COVID（肺炎病灶分割，100幅图像）和 GlaS（腺体分割，85幅训练图像和80幅测试图像）。

所有图像和掩码的大小均调整为 224 × 224；对于 GlaS 数据集，原始测试分割被视为测试数据。对于其他数据集，随机选择 20% 的图像作为测试数据。其余 60% 和 20% 的图像分别用于训练和验证，并以不同的随机洗牌方式重复实验三次。

与传统方法的比较 SOTA

所提议的方法与 UNet、MultiResUNet、Swin-Unet、UCTransnet 和 SMESwin-Unet 进行了比较。表 1 显示了测试集的模态得分。

在一个相对较大的数据集（ISIC-18）上，基于变换器的 Swin-Unet 取得了第二好的成绩。另一方面，在一个较小的数据集（GlaS）上，轻量级卷积模型（MultiResUNet）取得了第二好的成绩。在其他数据集上，混合模型（UCTransnet）是第二好的方法；SMESwin-Unet 尽管有大量参数，但在所有情况下都落在了后面。

另一方面，ACC-UNet 将变压器的设计原理与卷积神经网络的感应偏置相结合，在所有不同类别中取得了最佳性能。

五个数据集的模态得分分别提高了 0.13%、0.10%、0.63%、0.90% 和 0.27%。因此，ACC-UNet 不仅精度高，而且有效地使用了相对较小的参数：就 FLOPs 而言，所提出的方法与卷积 UNet 相当，因为基于变压器的 UNet 在片段分割过程中会进行大量的下采样、更小的 FLOP。

对五个数据集进行定性评估

ACC-UNet 不仅获得了更高的模数分数，而且产生了明显更好的质量结果。

图 2 显示了 ACC-UNet 与其他模型的定性比较。图中每行包含每个数据集的一个示例，右侧两列显示 ACC-UNet 预测的分割和地面实况掩膜在 ISIC-18 数据集的第一个示例中，模型没有过度分割，并遵循了病变的边界在来自 CVC-ClinicDB 的第二个示例中，模型几乎能够完美地区分手指和息肉。

然后，在 BUSI 数据集的第三个样本中，所提方法的预测过滤掉了左侧明显的结节区域，但排除了所有其他模型错误检测出的肿瘤。同样，在 COVID 数据集的第四个样本中，提出的方法能够直观地对左肺凝血间隙进行更好的建模，因此获得的模态得分比第二好的方法高出 2.9%。

从最后一个例子，即 GlaS 数据集来看，所提出的方法不仅准确预测了右下角的腺体，还单独识别了左上角的腺体，而这些腺体大多被其他模型所遗漏或合并。