一、论文阅读
Title: CT Liver Segmentation via PVT-Based Encoding and Refined Decoding
题目:基于PVT编码和精细解码的CT肝脏分割
摘要:CT扫描中准确的肝脏分割对于有效的诊断和治疗规划至关重要。计算机辅助诊断系统承诺提高肝脏疾病诊断、疾病进展和治疗规划的准确性。为了满足这一需求,我们提出了一种新颖的深度学习方法。PVTFormer,它建立在一个预训练的金字塔视觉变换器(PVT v2)的基础上,结合了先进的残差上采样和解码器块。通过将精细的特征通道方法与分层解码策略相结合,PVTFormer通过增强语义特征生成高质量的分割掩模。对所提出方法在肝肿瘤分割基准(LiTS)2017上进行了严格评估,结果表明我们提出的架构不仅达到了86.78%的高骰子系数、78.46%的mIoU,还获得了3.50的低HD。结果突显了PVTFormer在设定最先进的肝脏分割方法新基准方面的有效性。所提出的PVTFormer的源代码可在github上找到。
1 引言
肝脏是人体中最大的实体器官,对代谢功能和消化过程至关重要。全球范围内,肝癌是与癌症相关死亡的第三大原因,凸显了其对公共健康的重要影响。肝脏也是各种腹部癌症如结肠癌、直肠癌、胰腺癌以及远处癌症如乳腺癌和肺癌的常见转移部位。因此,准确分割肝脏对于靶向疗法和手术规划至关重要。随着医学影像技术如计算机断层扫描(CT)和磁共振成像(MRI)的进步,可以精确可视化和分割肝脏,从而实现更准确的诊断和治疗策略。
CT检查广泛可获得且具有成本效益。它们对检查肝脏疾病和检测肝肿瘤至关重要,因此在临床试验和术前规划中常被选择。然而,手动肝脏分割是一项具有挑战性的任务。它耗时长、依赖操作者,并且缺乏可重复性。由于肝脏在人群中的大小和形状各异,并且由于其中央位置和大小而与许多器官紧密相邻,因此计算机辅助诊断方法是必要的,以提高检查肝脏疾病和检测肿瘤的患者护理水平,利用CT的高分辨率成像和对比敏感性。肝脏分割领域的持续研究和技术进步有望使治疗更加精准和有效。
最近,有许多关于肝脏分割的研究工作。Zhang等人提出了一种基于3D卷积和卷积长短期记忆(C-LSTM)的深度学习模型,用于肝细胞癌(HCC)病灶分割。该模型利用来自动态增强磁共振成像(MRI)图像的4D数据来分割肝脏肿瘤。同样,Rahman等人提出了一种新颖的算法,用于从CT图像中自动分割肝脏肿瘤,采用了混合ResUNet模型。该模型基于ResNet和U-Net网络的组合,包括预处理、图像增强、特征提取和选择、感兴趣区域选择等过程,并通过ResUNet架构进行ROI肿瘤分割。
Li等人提出了一种用于肝脏和肿瘤分割的密集连接UNet框架(H-DenseUNet)。该架构包括一个专注于高效提取切片内特征的2D DenseUNet,以及一个设计用于层次聚合体积上下文的3D组件。架构的双元素解决了2D卷积忽略体积信息的限制以及3D卷积受到高计算成本的限制。Vorontsov等人提出了一种由两个全卷积网络组成的架构,串联连接并一起进行端到端训练,用于肝脏和肿瘤分割。第一个FCN(FCN 1)生成肝脏分割掩膜,而第二个(FCN 2)使用第一个的潜在输出和原始输入作为附加输入,精确勾画肝脏病变。
以上工作表明,针对高效的肝脏和肿瘤分割已经做出了显著努力。文献主要集中在2D或3D卷积网络,这可能导致在计算负载和捕获精确肝脏分割所必需的复杂特征之间存在权衡。我们的模型通过利用PVT v2作为骨干网络,通过残差学习丰富特征表示,并有效地保持关键信息,而无需进行3D卷积所带来的计算开销。这使得该架构能够以比传统基于CNN的模型更高的精度捕获详细的语义特征,后者可能无法充分利用图像特征的分层性质,或要求增加计算需求。
主要贡献如下:
· PVTFormer架构:我们提出了一种新颖的基于编码器-解码器的架构,PVTFormer,它利用PVT v2作为骨干网络。该模型利用残差学习增强特征表示。通过结合PVT v2、Up block和Decoder block,我们构建了一个端到端的分割流程,优化了计算资源的同时保留了重要信息,显著提高了分割性能。
· 分层解码策略:我们的方法包括一种新颖的分层解码策略,其中在Up block中结合专门的上采样和在Decoder中进行有效的多尺度特征融合。这种方法显著增强了网络描绘详细语义特征的能力,这对于精确的肝脏分割至关重要。
· 系统评估:我们已经针对八种现有的最先进方法对PVTFormer进行了评估。PVTFormer获得了最高的Dice系数为86.78%,平均IoU为78.46%,H.D很低为3.50。这凸显了该架构在准确性和可靠性方面在分割健康肝脏组织方面的优越性。
2 方法
2.1 编码器
图1显示了PVTFormer架构的模块图。我们的架构是基于编码器-解码器的框架,利用Pyramid Vision Transformer (PVT v2 b3)作为预训练的编码器。采用PVT v2的主要动机是减少计算复杂性,并显著改进肝脏分割任务。PVT v2的独特设计包括线性空间降维注意力,重叠的补丁嵌入和卷积前馈网络。PVT v2增强了图像的局部连续性和特征图的一致性,同时有效处理具有线性计算复杂性的可变分辨率输入图像,相比之下,比CNNs更为优越。输入图像通过PVT v2编码器,通过重叠的补丁嵌入(overlapped patch embeddings)和连续的分层transformer块捕获分层图像特征,生成多尺度表示。编码器将输入图像转换为特征丰富的表示,并在64×64、32×32和16×16的不同分辨率上提取三个不同的特征图,分别具有64、128和320个特征通道。这些表示经历了一系列的转换,包括1×1卷积、批量归一化(BN)和修正线性单元(ReLU)激活操作。这有效地将特征通道减少到64。这种减少优化了计算效率,并确保了对于精确肝脏分割至关重要的解剖信息的保留。
2.2 Up block
图1(右(下))显示了Up block的模块图。Up block作为一个缩放单元,用于增加特征图的空间维度。它由一个上采样层和一个残差块组成。在Up block内部,输入特征图首先通过双线性上采样,将特征图的高度和宽度放大到原始输入图像的尺寸。残差块包含两个卷积操作和一个恒等映射,用于完善放大后的特征,使网络能够学习到更强大的表示。
图1:提出的PVTFormer架构概述:输入图像通过PVT v2编码器传递,生成三种不同的特征图,然后通过一系列(1×1卷积、BN和ReLU)进入Up block和decoder block。Up block通过双线性上采样,将特征图维度放大到输入图像的尺寸。接着,一个残差块对上采样后的特征图进行微调,增强其学习更好表示的能力。
2.3 解码器块和输出的生成
解码器块(图1(右侧(顶部)))使用skip connections和upsampling layer。它首先上采样较低分辨率的特征图,然后将其与编码器中对应的较高分辨率特征图进行拼接。这个拼接的特征图经过另一个残差块以细化组合特征并增强肝脏结构的分割准确性。为了生成最终的分割输出,来自Up blocks和decoder blocks的特征图被拼接以整合多尺度的上下文信息。我们对这个整合的特征图应用最终的residual block以确保统一的尺度细化。细化后的特征图然后通过一个1×1的Conv2D层,接着是一个sigmoid激活函数,生成二值分割图。
我们利用了Liver Tumor Segmentation Benchmark(LiTS)数据集进行我们的肝脏分割任务。LiTS是从德国、荷兰、加拿大、法国的七家临床中心和以色列的三家医疗中心收集的多中心数据集。该数据集完全匿名,已删除个人标识符。它包含201张腹部CT图像,其中130张CT扫描与标准答案一起公开发布。只有训练数据集是公开可用的。因此,我们将训练数据集分为三部分进行实验。
为避免偏见,我们将病例分为独立的训练组(70名患者)、验证组(30名患者)和测试组(30名患者)。我们将图像大小调整为256×256像素,以优化训练时间和模型复杂度之间的平衡。体积CT扫描逐层处理,以适应常规计算机硬件(GPU)。在预处理过程中,我们提取了健康肝脏的掩膜。因此,我们的训练数据集中有11684个切片,验证集中有2745个切片,测试集中有4734个切片。验证集和测试集中切片数量的差异是因为不同患者之间的切片数量可能不同。
3.2 实施细节
我们使用PyTorch框架进行了所有用于肝脏分割任务的实验。所有实验都在NVIDIA RTX A6000 GPU上进行。网络配置为使用批量大小16进行训练,学习率设置为1e−4。我们将所有模型训练500个epochs以充分微调网络参数,早停机制设置为50。为了增强网络性能,我们结合使用了二元交叉熵和Dice损失,并选择了Adam优化器进行参数更新。
3.3 评估指标
肝脏分割性能通过标准评估指标进行评估,例如Dice系数(DSC)、平均交集联合(mIoU)、召回率、精确率、F2分数和Hausdorff距离(HD)。基于重叠的指标如DSC和mIoU能够揭示重叠的准确性和可靠性,而HD评估分割边界与实际肝脏边界之间的差异。
4 结果与讨论
表1显示了在肝脏肿瘤分割基准(LiTS)数据集上最先进的医学图像分割架构的模型表现。我们将我们提出的方法与UNet、ResUNet++、DoubleU-Net、ColonSegNet、UNext、TransNetR、NanoNet和TransResUNet等方法进行了比较。在我们严格的评估中,可以观察到大多数模型在健康肝脏分割方面表现出色。具有VGG-19作为骨干的DoubleUNet取得了竞争性的86.24%的Dice系数和77.89%的mIoU,超越了UNext、UNet、ResUNet++、NanoNet和ColonSegNet等竞争性基准。然而,使用ResNet50作为骨干的基于Transformer的方法,如TransNetR和TransResUNet,表现出色,要么竞争性,要么比DoubleUNet更好。例如,TransNetR获得了最高的96.34%的精确率,而TransResUNet获得了最高的80.85%的召回率。
根据表格,我们可以观察到,提出的PVTFormer表现出色,展示了最高的86.78%的Dice系数,78.46%的mIoU,80.70%的召回率,96.11%的精度,82.86%的F2分数,以及较低的3.50的HD分数。从整体比较来看,可以证明PVTFormer优于八种最先进的医学图像分割架构。这也可以从定性结果中观察到,提出的模型成功捕捉了复杂的细节。值得注意的是,我们提出的方法捕捉了精细的细节和上下文相关的重要特征,超越了基于CNN的架构,如ResUNet++,ColonSegNet和NanoNet,以及基于Transformer的方法,如TransNetR和TransResUNet。在比较计算复杂性时,TransNetR的操作需要10.58 GMac FLOPS,并利用了1058万参数,而PVTFormer则需要43.22 GMac并利用了4551万参数。PVTFormer相比于TransNetR和其他Transformer和CNN-based方法获得了更高的性能,因此更高的计算资源是合理的。
5 结论
在这项研究中,我们提出了PVTFormer架构,通过利用预训练的Pyramid Vision Transformer(PVT v2)作为编码器,并结合Up block、decoder block和残差学习,实现了准确的肝脏分割。decoder block中的分层解码策略增强了语义特征,提升了输出分割掩模的质量。针对八种现有最先进的方法进行的评估表明,PVTFormer取得了出色的结果,在Dice系数高达86.78%,mIoU为78.46%,HD仅为3.50,胜过竞争对手。PVTFormer的性能表明,它是一种用于精确健康肝脏分割的有效方法,并且还可以应用于其他医学领域。在未来,我们计划与我们团队的放射科医师一起为LiTS的测试数据集进行注释,并对多中心数据集进行更全面的研究。此外,我们计划扩展PVTFormer的能力,用于在腹部CT扫描中分割多个器官。