1.UNETR: Transformers for 3D Medical Image Segmentation
论文地址:论文地址
代码:论文代码
数据集:BTCV (CT) MSD(MRI/CT)
总结:
1) UNETR专门用于三维分割,并直接利用体积数据;2) UNETR将transformers用作分段网络的主编码器,并通过跳过连接将其直接连接到解码器,而不是将其用作分段网络内的注意层。3)UNETR不依赖主干CNN生成输入序列,并直接利用标记化补丁。
一个3D输入体(例如,MRI图像的C=4通道)被分成一系列均匀的非重叠贴片,并使用线性层投影到嵌入空间。该序列与位置嵌入一起添加,并用作transformers模型的输入。提取transformers中不同层的编码表示,并通过跳过连接与解码器合并,以预测最终分段。
思路/原理:
把整体的模块✖️12 然后串联 Z12反卷积(上采样:从特征恢复图像)绿色块上采样在传统UNet结构里的位置是一样的(Z12经过了所有的绿色块 是层数最深的特征 越深的特征越能描述总体的特征 越深位置信息越模糊 越浅的特征保留了更多的位置信息) 蓝色块是浅层(一个蓝色块把HWD扩大一倍或称为✖️2)黄色块用于计算
2.TransBTS: Multimodal Brain Tumor Segmentation Using Transformer
论文地址:论文地址
代码:论文代码
数据集:BraTS 2019
总结:
直接将图像分割成补丁作为Transformer的token时,局部结构会被忽略。此外,对于超出2D的医疗体积数据(如3D MRI扫描),连续切片之间的局部特征建模(即深度维度)对于体积分割也是至关重要的。如何设计一种神经网络,利用具有高度表现力的transformer,在空间和深度维度上有效地建模体积数据的局部和全局特征?
思路/原理:
受自然语言处理中注意机制的启发,通过将注意机制与CNN模型融合来克服局限性。Transformer 被设计成对序列到序列任务中的长距离相关性进行建模,并捕捉序列中任意位置之间的关系。这种架构是完全基于self-attention而提出的,完全不需要卷积。与以往基于CNN的方法不同,Transformer不仅在全局上下文建模方面功能强大,而且在大规模预训练的情况下,可以在后半部分任务上取得优异的效果。
基于transformer的框架在各种计算机视觉任务上也达到了最先进的性能。Vision transformer(ViT)将图像分割成块,并使用transformer将这些块之间的相关性建模为序列,从而在图像分类上获得令人满意的结果。在Transformer的帮助下,将目标检测视为一个集合预测任务。TransUNet 就是一项类似工作,它将ViT用于医学图像分割。
一个输入的MRI扫描,空间分辨率为H×W,深度为D(片数),C通道(模数)。维度为D(切片数量)和C通道(模式数量),首先利用3D CNN来生成捕捉空间和深度信息的紧凑特征图,然后利用Transformer编码器来模拟全局空间中的长距离全局空间中的依赖性。之后,反复叠加上采样和卷积层,逐渐产生一个高分辨率的分割结果。ViT将图像分割成固定大小(16×16)的斑块,然后将每个斑块重塑为一个标记,将序列长度减少到162。对于三维体积数据,按照ViT,直接的标记化是将数据分割成三维斑块。然而,这种简单的策略使得Transformer无法在空间和深度维度上对图像的局部环境信息进行建模,以进行体积分割。TransBTS 将3×3×3的卷积块(strided convolution,stride=2),将输入图像逐渐编码为低分辨率的图像。该论文提出新的分割框架,有效地将Transformer纳入三维CNN,用于MRI的多模态脑瘤分割。由此产生的架构,TransBTS,不仅继承了三维CNN在局部环境信息建模方面的优势,而且还利用Transformer学习全局语义关联。全局语义关联性。在两个数据集上的实验结果(BraTS 2019和2020)验证了TransBTS的有效性。
3.INS-Conv: Incremental Sparse Convolution for Online 3D Segmentation
论文地址:论文地址
代码:论文代码
总结:
先处理得到体素化的点云,然后将其作为输入,并在体素网格上进行 3D 卷积运算。以往的工作中采用的是密集的 3D 卷积,该类方法面临的一个重要问题是,对高维数据进行处理要消耗极高的计算成本,而且有时甚至无法对大规模的体素网格进行处理。为解决该问题,研究人员提出的稀疏卷积网络方法,利用 3D 点云的固有稀疏性来提取 3D 特征的骨干,有效突破了之前的限制,而且分割精度也进一步提高。之后,将 2D 和 3D 网络联合训练方法的提出使得性能进一步提升。
INS-Conv 方法中也提取了离线 3D 分割的经验,采用了类似于聚类的方法,使用稀疏卷积网络对提取的每点的特征进行聚类,并添加了一个阶段来将对多个帧的预测进行融合。
思路/原理:
INS-Conv,一个增量稀疏卷积网络,它可以实现在线准确的三维语义和实例分割。 在三维重建的同时生成语义和实例标签,这对交互式AR/VR和机器人应用很有价值。机器人技术应用的价值。
该网络模型能够实现在线准确的3D语义和实例分割。
4.Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image Analysis
论文地址:论文地址
论文代码: 论文代码
数据集:BTCV (CT) MSD(MRI/CT)
总结:该论文提出:
(1)一个新的基于三维 Transformer 的模型,Swin UNEt TRansformers(Swin UNETR),带有一个用于自监督的预训练的分层编码器。
(2)用于学习人体解剖学基本模式的定制代理任务。
思路/原理:
5.UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation
论文地址:论文地址
论文代码:论文代码
数据集:Multi-Centre, Multi-Vendor & Multi-Disease Cardiac Image Segmentation Challenge
在语义分割上,FCN 这类卷积的编码器-解码器架构衍生出的模型在过去几年取得了实质性进展,但这类模型存在两个局限。第一,卷积仅能从邻域像素收集信息,缺乏提取明确全局依赖性特征的能力;第二,卷积核的大小和形状往往是固定的,因此它们不能灵活适应输入的图像或其他内容。相反,Transformer architecture 由于自注意力机制具有捕获全局依赖特征的能力,且允许网络根据输入内容动态收集相关特征。
Transformer 架构的训练需要的更大的开销,因为自注意力机制(self-attention)在序列长度方面具有的时间和空间复杂度。基于此,标准的 self-attention 大多数以 patch-wise 方式应用到模型中,比如使用 16 × 16 这种小扁平图像块作为输入序列,或者在来自 CNN 主干的特征图之上对图像进行编码,这些特征图一般是下采样后的低分辨率图像。这里问题就出来了,对于医学图像分割任务目标位置敏感的特殊性,一些欠分割或者过分割的区域都在目标周围,往往需要高分辨率特征。此外,有些实验论证,在 ImageNet 上进行了预训练,Transformer 要比 ResNet 差,Transformer 真的能适应医学图像这种小数据集分割任务吗?
为了解决上面的问题,文章中提出的 U-Net 混合 Transformer 网络:UTNet,它整合了卷积和自注意力策略用于医学图像分割任务。应用卷积层来提取局部强度特征,以避免对 Transformer 进行大规模的预训练,同时使用自注意力来捕获全局特征。为了提高分割质量,还提出了一种 efficient self-attention,在时间和空间上将整体复杂度从 显着降低到接近 O(n)。此外,在 self-attention 模块中使用相对位置编码来学习医学图像中的内容-位置关系。
Transformer 建立在多头自注意机制 (MHSA) 模块上,MHSA 是由多个 Self-Attention 组成的。下图是 Self-Attention 的结构,在计算的时候需要用到矩阵 Q(查询),K(键值),V(值)。在实际中,Self-Attention 接收的是输入(单词的表示向量 x 组成的矩阵 X) 或者上一个 Encoder block 的输出。而 Q,K,V 是通过 Self-Attention 的输入进行线性变换得到的。
得到矩阵 Q, K, V 之后就可以计算出 Self-Attention 的输出了,计算的公式如下。其中 d 是 Q,K 矩阵的列数(向量维度),公式中计算矩阵 Q 和 K 每一行向量的内积,为了防止内积过大,因此除以 d 的平方根。将 Q, K, V 展平并转置为大小为 n × d 的序列,其中 n = HW。P ∈ Rn×n 被命名为上下文聚合矩阵,用作权重以收集上下文信息。
5-1
通过这种方式,self-attention 本质上具有全局感受野,擅长捕捉全局依赖。 此外,上下文聚合矩阵可以适应输入内容,以实现更好的特征聚合。需要关注的是,n×d 矩阵的点乘会导致 O(n2d) 复杂度。通常,当特征图的分辨率很大时,n 远大于 d,因此序列长度 n 在自注意力计算中占主导地位,这使得高分辨率特征图中应用自注意力是不可行的,例如对于 16 × 16 特征图,n = 256,对于 128 × 128 特征图,n = 16384。这一点在本篇笔记的概述中提到过。
主要思想很简单,是将 K 和 V 矩阵做了一个 Low-dimension Embedding 达到减小计算量的目的,对应的上下文聚合矩阵 P 的 size 也会被修改。 通过这样做,可以把复杂度降低到 O(nkd)。相当于,这里我们可以做任意下采样操作,例如平均/最大池化或带步长卷积操作。 比如,使用 1×1 卷积,然后使用双线性插值对特征图进行下采样,缩小后的 size 是可以推断的。
Transformer 的相对位置编码大概作用是让像素间保持空间位置关系(从ViT的实验看,去掉 position embedding 后,性能会下降3个点以上),对于图像就是保持二维信息,它对于图像任务来讲很重要。像目前的相对位置编码设计,都算是将位置编码整合到了 Attention 的定义中去了,没有显式地使用绝对位置编码。读者们应该可以发现 2.2 的 MHSA 图里,在 softmax 之前的 pair-wise attention logit 计算中使用了像素 i 和 j 的位置编码,具体的计算如下
相应的,self-attention 的计算公式又需要做修正了,和之前的区别就是相对宽度和高度是在 low-dimensional projection (低维投影)之后计算的。对 5-1的高效 self-attention 修正后的计算方式如下。
如何把 Transformer 的 encoder 和 decoder 合理加入到主干 U-Net 中
这种混合架构可以利用卷积图像的归纳偏差来避免大规模预训练,以及 Transformer 捕获全局特征关系的能力。由于错误分割的区域通常位于感兴趣区域的边界,高分辨率的上下文信息可以在分割中发挥至关重要的作用。因此,重点放在了自我注意模块上,这使得有效处理大尺寸特征图成为可能。没有将自注意力模块简单地集成到来自 CNN 主干的特征图之上,而是将 Transformer 模块应用于编码器和解码器的每个级别,以从多个尺度收集长期依赖关系。请注意,没有在原始分辨率上应用 Transformer,因为在网络的非常浅层中添加 Transformer 模块对实验没有帮助,但会引入额外的计算。一个可能的原因是网络的浅层更多地关注详细的纹理,其中收集全局上下文特征效果肯定不理想。