Transformer取代了CNN!用Transformer对医学图像进行分割。
三个要点
✔️首个3D医学图像分割的CNN自由模型
✔️在三个不同数据集上的分割精度优于或优于CNNs
✔️转移学习能力比CNN好得多
Convolution-Free Medical Image Segmentation using Transformers
written by Davood Karimi, Serge Vasylechko, Ali Gholipour
(Submitted on 26 Feb 2021)
Comments: Accepted to arXiv.
Subjects: Image and Video Processing (eess.IV); Computer Vision and Pattern Recognition (cs.CV)
code:![]()
![]()
首先
深度神经网络在医疗领域产生了重大影响。它们可以高效地完成各种任务,如恶性图像的分类、图像中恶性区域的检测和分割。虽然人工工作被认为是最可靠的方法,但DNN模型速度更快,可扩展性强,而且成本低廉,有一定的初始成本。卷积神经网络(CNNs)是DNNs在医学成像任务中成功的背后,CNNs对图像有很强的归纳偏向,并已成功用于各种视觉任务。虽然DNN模型的架构、损失函数和训练方式都发生了很大的变化,但基本的结构元素--卷积层却没有改变。
该变压器在多个NLP任务中表现出非常好的性能。随着视觉变换器(ViT)的引入,自学习在计算机视觉任务中也被证明是高效的。这表明,该变压器可能有助于改善目前的医疗视觉任务状况。
在本文中,我们提出了一种基于变换的三维医学图像分割模型,该模型不使用CNN。该模型的性能与基于CNN的模型一样好,甚至比CNN的模型更好,并且可以在只有20-200张标签图像的数据集上进行微调。我们还表明,这个模型比最先进的CNNs具有更好的转移学习能力。
Model
上图是一个CNN自由网络的模型架构。首先,从3D图像中提取区块,并进行n3补丁。块 B∈RW×W×W×W×c 要害n3的非重叠补丁{pi ∈ RW×W×W×C},让我们假设我们将w =W/n和c是图像的维度是3。然后,我们将每个补丁划分为w3c维度,并将其扁平化为一个维度的向量。这些w3c维向量使用学习的线性映射转化为D维空间。在这样得到的矢量上加上位置编码。D: X0 = [Ep1; ...; EpN ] + E姿势 这样一来,每个D维的n3形成n个块的序列。请注意,与许多其他任务不同,这里的位置编码是一个可学习的参数。
变压器编码器有K级,每级有一个多头自注意层(MSA)和两个使用后续层归一化的前馈网络(FFN)。 编码器与标准变压器非常相似。 查询(Q)、键(K)和值(V)的计算,用下面的公式计算自注意力哪儿Dh是一个比例系数,等于隐藏维度。
在最后一个FFNN之后,该序列使用全耦合层来获得尺寸n阶层使用全耦合层的空间。在这里n阶层是类的数量(在二元分割的情况下是2)。 然后将该矩阵投影到红外线n×n×n级类分割掩码Y(块被分割,而不是单个像素)。
这是一个专门用于块的中心补丁的分割掩码。 整个3D图像块需要重复这个过程。
实验和评估
该模型与3D UNet ++进行了比较,3D UNet ++是基于DICE系数(DSC)的医学图像分割的最先进的CNN模型。
训练前
为了进一步提高模型对少量标记训练实例的准确性,我们在一个大型的无标记数据集上训练模型,用于去噪和inpainting(图像重建)任务。在去噪方面,我们在图像块的中央贴片上添加一个SNR=10dB的高斯噪声。在绘画中,我们通过将图像块的中心补丁的值设置为0来重建图像。两个任务都被训练成最小化真实图像和构建图像之间的L2距离。该模型在没有softmax层的情况下进行预训练,并在模型中加入softmax层来预测分割掩模进行微调。我们还发现,对整个网络进行微调比只对最后一层进行微调更有效。
评估
该模型在三个不同的数据集上进行了基准测试:大脑皮质板、海马和胰腺的图像。
上图是我们在不同数据集上的实验结果。如你所见,几乎在所有情况下,该模型在不同的指标上都比UNet++模型表现得更好。下图显示了所提出的模型和UNet++在极少数实例(5,10,15)上对皮质板(左)和胰腺(右)的性能。在这两种情况下,我们可以看到,所提出的模型的适应性更强,用内画法进行预训练比用去噪法进行预训练更有效。我们还发现,使用可学习的位置编码学习比使用固定位置编码学习效果更好。下图是一些消融研究的结果。
预测结果图像
胰腺分割被认为是一项艰巨的任务。即使在这样的情况下,我们相信我们也能在一定程度上预测分割掩模。
摘要
有些工作,比如手动分割大脑皮质板,非常复杂,即使是专家也要花上几个小时。在这种情况下,像这里介绍的模型无疑是有优势的。考虑到在医疗计算机视觉任务中,真正的正向学习很少,所以像本模型这样可以从较少的实例中学习的模型是不可避免的。最后,"三维点变换模型"在医学图像分割任务中的表现也将令人感兴趣。虽然这个模型还没有在医学图像上进行测试,但它在其他3D分割任务上表现出了非常令人印象深刻的结果。
与本文相关的类别