
ACC-UNet:2020 年代完全复杂的 UNet
三个要点
✔️ 通过引入新的卷积块和跳过传统 UNet 的连接,提出一种新的全卷积 UNet
✔️ 所提出的 UNet 既能利用 CNN 的归纳偏置,又能利用 Transformers 的全局特征提取能力
✔️ 在 5 个不同任务中实现 UNet 的 SOTA 精确度
ACC-UNet: A Completely Convolutional UNet model for the 2020s
written by Nabil Ibtehaz, Daisuke Kihara
(Submitted on 25 Aug 2023)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
过去十年的特点是引入了视觉转换器,这是计算机视觉领域的一次根本性范式转变。医学成像领域也出现了类似的趋势,其中最有影响力的架构之一 UNet 就是利用转换器重新设计的。
最近,ConvNext 等开创性工作重新审视了卷积模型在视觉领域的有效性。受这些研究成果的启发,我们的目标是改进纯卷积 UNet 模型,使其性能与 Swin-Unet 和 UCTransNet 等基于变换器的模型不相上下。
在这篇评论文章中,我们考虑了基于变压器的 UNet 模型的几个优点,主要是提取全局特征和跨级跳转连接的能力。我们通过卷积运算来模拟它们,并提出了 ACC-UNet,这是一种完全卷积的 UNet,它兼具两种方法的优点,即卷积固有的感应偏差和提取变压器全局特征的能力。
ACC-UNet 在五个不同的医学图像分割基准上进行了评估,其性能始终优于卷积网、变换器及其混合体。值得注意的是,ACC-UNet 在模态得分方面分别比最先进的模型 Swin-Unet 和 UCTransNet 高出 2.64 ± 2.54% 和 0.45 ± 1.61%,而使用的参数仅为它们的一小部分(59.26% 和 24.24%)。是
建议方法

ACC-UNet 一览
整体概览如图 1-A 所示。建议的方法用引入自注意的 HANC 块取代了传统的 U-Net 卷积块。此外,传统的简单跳转连接也被 MLFC 模块取代,后者考虑到了不同编码器级别的特征图。下面各小节将详细介绍 HANC 和 MLFC 模块。
分层聚合邻里情境(HANC)
首先,我们考虑了如何在卷积块中引入长程依赖关系并提高其表达能力。为了降低计算复杂度,我们只使用逐点卷积和逐深卷积。
为了提高表示能力,建议在卷积块中加入一个反向瓶颈。这可以通过逐点卷积将通道数从 cin 增加到 cinv = cin∗invf来实现。由于这些额外的通道增加了模型的复杂度,因此采用 3x3 逐深卷积来降低计算复杂度,如图 1-B 所示。
为了提高提取全局特征的能力,在卷积块中模仿了自注意力。它主要是将一个像素与其邻近的其他像素进行比较。这种比较可以通过与邻近像素的平均值和最大值进行比较来简化。将邻近像素特征的平均值和最大值相加,就可以得到邻近比较的近似概念。然后,在逐点连续卷积的基础上考虑这些因素,并捕捉对比视角。由于分层分析有利于图像,因此这种聚合是在多层次上分层计算的。例如,2k-1 x 2k-1 补丁。
拟议的 HANC 将特征图 x1∈R cinv,n,m 扩展为 x2∈R cinv∗(2k-1),n,m(图 1-B)。 || 表示沿信道维度的连接。
然后,与变换器一样,在卷积块中加入捷径连接,以改善梯度传播。因此,再进行一次点式卷积,将通道数减少到 cin,并添加到输入特征图中。因此,x2∈ R cinv∗(2k-1),n,m 变成了 x3∈ R cin,n,m(图 1-B)。
最后,将输出数改为 c_out 作为输出。为此,采用了逐点卷积法(图 1-B)。
多级特征编译 (MLFC)
接下来,我们将研究基于变压器的联合国数据集的另一个优势--多级特征组合的可能性。
基于变压器的跳转连接可有效融合编码器层面的特征,并确保在各个解码器上对特征图进行适当过滤。这可以通过连接不同级别的标记来实现。
本文沿用了这一方法,通过调整不同编码器级别的卷积特征图的大小,将其合并为相同大小。然后合并来自不同语义层的特征图,并通过逐点卷积操作将其汇总。然后再与相应的编码器特征图相结合,通过另一次卷积来整合信息。
对于来自四个不同层级的特征 x1、x2、x3 和 x4,特征图谱将丰富多层级信息,如下式所示(图 1-D)。
这里,resizei(xj) 是将 xj 调整为 xi 大小的操作,ctot = c1 + c2 + c3 + c4。该操作对所有不同层级分别执行。
试验
数据集
为了评估 ACC-UNet 的性能,我们在五个不同任务和模式的公开数据集上进行了实验:ISIC-2018(皮肤科,2594 幅图像)、BUSI(乳腺超声波,437 幅良性图像和 210 幅恶性图像)、CVC-ClinicDB(结肠镜检查,612 幅图像)、COVID(肺炎病灶分割,100 幅图像)和 GlaS(腺体分割,85 幅训练图像和 80 幅测试图像)、612幅图像)、COVID(肺炎病灶分割,100幅图像)和 GlaS(腺体分割,85幅训练图像和80幅测试图像)。
所有图像和掩码的大小均调整为 224 × 224;对于 GlaS 数据集,原始测试分割被视为测试数据。对于其他数据集,随机选择 20% 的图像作为测试数据。其余 60% 和 20% 的图像分别用于训练和验证,并以不同的随机洗牌方式重复实验三次。
与传统方法的比较 SOTA

所提议的方法与 UNet、MultiResUNet、Swin-Unet、UCTransnet 和 SMESwin-Unet 进行了比较。表 1 显示了测试集的模态得分。
在一个相对较大的数据集(ISIC-18)上,基于变换器的 Swin-Unet 取得了第二好的成绩。另一方面,在一个较小的数据集(GlaS)上,轻量级卷积模型(MultiResUNet)取得了第二好的成绩。在其他数据集上,混合模型(UCTransnet)是第二好的方法;SMESwin-Unet 尽管有大量参数,但在所有情况下都落在了后面。
另一方面,ACC-UNet 将变压器的设计原理与卷积神经网络的感应偏置相结合,在所有不同类别中取得了最佳性能。
五个数据集的模态得分分别提高了 0.13%、0.10%、0.63%、0.90% 和 0.27%。因此,ACC-UNet 不仅精度高,而且有效地使用了相对较小的参数:就 FLOPs 而言,所提出的方法与卷积 UNet 相当,因为基于变压器的 UNet 在片段分割过程中会进行大量的下采样、更小的 FLOP。
对五个数据集进行定性评估
ACC-UNet 不仅获得了更高的模数分数,而且产生了明显更好的质量结果。
图 2 显示了 ACC-UNet 与其他模型的定性比较。图中每行包含每个数据集的一个示例,右侧两列显示 ACC-UNet 预测的分割和地面实况掩膜 在 ISIC-18 数据集的第一个示例中,模型没有过度分割,并遵循了病变的边界在来自 CVC-ClinicDB 的第二个示例中,模型几乎能够完美地区分手指和息肉。
然后,在 BUSI 数据集的第三个样本中,所提方法的预测过滤掉了左侧明显的结节区域,但排除了所有其他模型错误检测出的肿瘤。同样,在 COVID 数据集的第四个样本中,提出的方法能够直观地对左肺凝血间隙进行更好的建模,因此获得的模态得分比第二好的方法高出 2.9%。
从最后一个例子,即 GlaS 数据集来看,所提出的方法不仅准确预测了右下角的腺体,还单独识别了左上角的腺体,而这些腺体大多被其他模型所遗漏或合并。

摘要
在这项实验中,我们认识到了变换器不同设计范式的优势,并研究了类似想法在卷积 UNet 中的适用性。结果表明,拟议的 ACC-UNet 具有 CNN 的归纳偏置,并融合了转换器的长程和多级特征积累。
实验表明,这种整合方法确实具有改进 UNet 模型的潜力。提议方法的一个局限是连接操作的延迟,这可以通过其他方法解决。此外,转换器还带来了其他创新,如层规范化、GELU 激活和 AdamW 优化器。这些努力有望进一步提高拟议方法的有效性。
与本文相关的类别