U-Net和Transformer相结合!介绍Swin Unet,一个用于医学图像分割的新网络。
三个要点
✔️ CNN在医学图像分析方面取得了突破性进展,但由于卷积运算,它们无法学习全局信息。
✔️ 由于Transformer可以学习全局信息,我们在本文中提出了一个基于Transformer的U-Net,Swin-Unet。
✔️ 在一个多器官分割任务上进行验证,结果表明Swin-Unet优于基于CNN的U-Net。
Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation
written by Hu Cao, Yueyue Wang, Joy Chen, Dongsheng Jiang, Xiaopeng Zhang, Qi Tian, Manning Wang
(Submitted on 12 May 2021)
Comments: Published on arxiv.
Subjects: Image and Video Processing (eess.IV); Computer Vision and Pattern Recognition (cs.CV)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
在过去的几年里,卷积神经网络(CNN)在医学图像分析方面取得了突破性进展。特别是在分割任务中,U-Nets被广泛用于医学领域的深度学习。
然而,有人指出,由于卷积操作的局部性质,CNN不能很好地学习全局特征。相比之下,Transformer学习了全局特征,这使得它在医学领域得到了应用。
在这项研究中,提出了一个基于变压器的U-Net,Swin-Unet,用于多器官分割。结果表明,Swin-Unet优于CNN和Transformer+CNN方法。
背景
近年来,自然语言领域报道了一种名为Transformer的网络,并因其高性能而迅速得到普及。Transformer的核心思想被称为注意力机制,它是一种指定翻译任务中哪些词与输入中的哪些词和输出中的哪些词相联系,并计算这些词在句子中的重要程度的方法。Transformer的核心思想是注意机制,这是一种指定翻译任务中的哪些词与输出中的哪些词相连的方法,然后计算这些词在句子中的重要性。Transformer善于学习全局信息,因为输出是通过考虑该词在整个句子中的重要性来决定的。变压器的结构如下所示。
相比之下,CNN在图像领域的核心思想是卷积。卷积是对构成图像的像素群的信息进行汇总。它被称为卷积,因为这个过程类似于折叠图像以使其变小。换句话说,输出是通过聚集和积累信息,如形状和颜色的变化来确定的。因此,CNN善于聚集局部信息,反之,不能聚集来自图像远处的信息。
因此,尽管CNN和Transformer的方法截然不同,但Transformer注意力后来被应用于成像领域。ViT的基本理念是将图像细分为片段,然后将其视为自然语言领域的词汇。因此,图像被像句子一样处理。因此,它成功地学习了图像上的全局信息。
而U-Net在医学图像分割任务中已经取得了成功。而各种改进的版本也被报道,如3D U-Net、Res-Unet和U-Net+。然而,U-Net的结构由于其基于CNN的性质,本质上无法聚合全球各部门。因此,在本研究中,ViT被应用于U-Net,并提出了一个新的网络,称为Swin-Unet。
在Swin-Unet中,输入图像被送入一个基于变形器的编码器,该编码器学习空间上的广泛特征。所提出的方法在多器官分割和心脏分割上得到了验证,表明所提出的方法具有出色的分割精度和强大的通用性。
相关研究
早期的医学图像分割方法是使用轮廓(contour)信息的机器学习 随着深度CNN的发展,U-Net被提出 随后,U的改进版已经提出了网络的改进(例如Res-UNet、Dense-UNet、U-Net+、UNet3、3D-Unet、V-Net)。V-Net。
正如已经提到的ViT,还提出了一种对CNN的补充方法--Transformer(自我关注),它是在现有的U-Net基础上加上关注门和然而,请注意,设计理念与本文介绍的Swin-Unet不同,因为它本质上是一个基于卷积的网络。.
实验程序
Swin-Unet的结构如下所示。
输入的图像首先由4x4像素的方块划定并打上补丁,然后送入Swin变换器块,在补丁合并层中进行下采样。Patch Expanding层则相反:它通过跳过连接与来自编码器的上采样特征合并,以补偿下采样造成的空间信息损失。
Swin-Unet的基本单元--Swin Transformer如下所示。
Swin变换器没有使用传统的多头自我注意模块,因为它是:Swin变换器由一个LayerNorm层(LN)和一个基于窗口的多头自我注意(W-MHA)层。
实验
分割任务是使用Synapse多器官分割数据集(以下简称Synapse)进行的,其中包含30个病例(注意:每个病例大约有3800张图像,因为它们是CT)。结果显示在前面。
实际使用了八个腹部器官(主动脉、胆囊、脾脏、左肾和右肾、肝脏、胰腺和胃),评估的依据是平均水平。Dice系数(DSC)和平均Hausdorff距离(HD),黑体字的模型是获得最高分的模型,例如Att-UNet在主动脉(Aorta)中表现最好。提出的Swin Unet在左肾、肝脏、脾脏和胃方面取得了最高分,总体平均水平优于现有方法。.
分段的例子如上图所示,从左到右:正确的标签、Swin Unet、TransUNet、AttUnet 和UNet,其中黄色的胰腺由于其平坦性,是一个难以检测的器官;底排显示了胰腺分割的巨大差异。
结论
本文提出了一个基于Transformer的U-Net,用于医学图像分割。为了通过Transformer学习全局信息,Swin Transformer块,结果表明,Swin Unet在多器官分割任务中表现良好。
与本文相关的类别