把你的UNET提升到新的高度！用变压器增强你的UNET

分段 18/02/2022

三个要点
✔️提出TransUNet，一个结合UNet和Transformer的模型。
✔️CNN的地域性和Transformer的长期依赖性的结合很重要。
✔️在两个医学图像数据集上实现超越传统方法的分割精度

TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation
written by Jieneng Chen, Yongyi Lu, Qihang Yu, Xiangde Luo, Ehsan Adeli, Yan Wang, Le Lu, Alan L. Yuille, Yuyin Zhou
(Submitted on 8 Feb 2021)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

简介

医学图像的分割是医学应用中一个非常重要的预处理步骤，因此每天都在研究。最近，基于深度学习的模型已经取得了很高的分割精度。

用于医学图像分割的最成功的模型之一是UNet，这是一个具有U型结构的CNN模型。然而，UNet在细分方面有一个弱点：它不太擅长捕捉细分中的长期依赖关系。据悉，这是由于构成UNet的CNN善于捕捉局部特征，而在捕捉长期特征方面则受到限制。

转化器的优势在于其捕捉长期依赖关系的能力。因此，预计Transformer将弥补UNet的弱点并提高分割的准确性。

在本文中，我们提出了一个名为TransUNet的模型，它是UNet和Transformer的组合，通过成功结合擅长捕捉局部特征的CNN和擅长捕捉长期特征的Transformer，能够进行比传统方法更精确的分割。TransUNet提供了一个比传统方法更准确的分割。

因此，我们在两个医学图像数据集上取得了超过传统方法的分割精度。实验还表明，与单独使用CNN和Transformer相比，CNN和Transformer的组合能提供更准确的分割。

本文介绍了TransUNet的概况和使用医学图像数据集的实验结果。

TransUNet

上图显示了TransUNet的结构，简而言之，它是一个带有嵌入式变压器（ViT）的UNet编码器的模型。以下章节描述了TransUNet的编码器和解码器。

在TransUNet编码器中，第一步是用CNN提取特征，以捕捉局部特征。之后，转化器提取特征并捕获长期特征。TransUNet使用在ImageNet上训练的ResNet50和ViT分别作为CNN和Transformer。

TransUNet的解码器和UNet一样进行上采样，最后输出分割的结果。此外，编码器的CNN和解码器的相应层是通过跳过连接连接的。

实验

医学图像数据集

在本文中，我们使用两个医学图像数据集进行了分割实验

突触多器官分割数据集
- 腹部CT图像的数据集
- 对8个地点进行细分
自动心脏诊断挑战（ACDC）
- 心脏的MRI数据集
- 三个地点的划分

评级

Dice系数（DSC，单位：%）和Hausdorff距离（HD，单位：mm）被用来评价模型：DSC越高，分割精度越高，HD越小，分割精度越高。

Synapse多器官分割数据集的分割精度如下

通过TransUNet（DSC：77.48 %，HD：31.69 mm），我们实现了超过传统方法（V-Net、DARR、U-Net、AttnUNet）的分割精度。TransUNet比只用Transformer作为编码器的模型（用ViT作为编码器和CUP作为解码器的模型）取得了更好的分割精度，这表明结合CNN和Transformer是很重要的。

现在ACDC数据集的分割精度如下