医学图像处理中物体和器官的标注在异常检测和形状识别中起着重要作用。此外,分割被定义为许多其他任务的预处理步骤,如检测和分类。因此,自动分割引起了大量研究者的关注,近几十年来,自动分割是医学图像处理中应用深度学习最常见的课题。
1.1 MR图像
磁共振成像(MRI)是无线电成像领域中使用最广泛的技术。作为一种动态且灵活的技术,MRI可以实现多变的图像对比度,该过程的实现是通过使用不同的脉冲序列和改变成像参数对应纵向松弛时间(T1)和横向松弛时间(T2),T1加权和T2加权成像的信号强度与特定组织的特征有关[10]。MR成像中,图像的对比度依赖于相位对比脉冲序列参数,最常见的脉冲序列是T1加权和T2加权自旋回波序列[12]。通过MR成像可以观察大脑、肝脏、胸、腹部和骨盆的结构细节,这有利于诊断检测或治疗[13]。
MRI对软组织有很好的成像能力;有非常高的分辨率;具有较高的信噪比;利用不同的脉冲序列可以得到对比度多变的多通道图像,进而用于不同解剖结构的目标分割和分类[14]。然而,在MRI中存在多种伪影,如部分容积、随机场噪声、强度不均匀性、梯度、运动、环绕、吉布斯振铃、磁化性等[15]。此外,相比于CT图像,MRI的获取需要相当长的时间,且通常条件下很难得到统一的图像质量。
1.2 CT图像
医学CT成像设备使用X射线(一种电磁波)得到人体的结构和功能信息。CT影像是基于X射线吸收剖面的重构图像,由于不同物质和组织吸收X射线能力不同,因此X射线可用于诊断[16]。CT成像作为当前多类疾病实体诊断的金标准,广泛应用于大脑、肝脏、胸部、腹部、骨盆、脊柱等身体部位以及CT血管造影的早期诊断筛查[17]。但是与MR图像相比较,CT图像敏感性和特异性相对较差。
CT成像中的伪影[18]包括:部分容积效应、条形伪影、运动伪影、束硬化伪影、环状伪影、金属伪影等。由于这些伪影的存在给CT图像分割带来了一定的难度,不同组织部位分割精度也不一样[19]。
1.3 医学图像分割的特点
医学图像分割是医学图像处理与分析领域的复杂而关键的步骤,其目的是将医学图像中具有某些特殊含义的部分分割出来,并提取相关特征,为临床诊疗和病理学研究提供可靠的依据,辅助医生做出更为准确的诊断[20]。图像分割过程是把图像分割成多个区域,这些区域内部有类似的性质,如灰度、颜色、纹理、亮度、对比度等。医学图像分割的目标是(以放射治疗为例)[21]:(1)研究解剖结构;(2)识别感兴趣区域(即定位肿瘤、病变和其他异常组织);(3)测量组织体积;(4)观察肿瘤生长或治疗中肿瘤体积的减少,为治疗前的计划和治疗中提供帮助;(5)辐射剂量计算。
从医学图像中自动分割出目标是个艰巨的任务,因为医学图像具有较高的复杂性且缺少简单的线性特征;此外分割结果的准确率还受到部分容积效应、灰度不均匀性、伪影、不同软组织间灰度的接近性等因素的影响[22]。针对通常采用的校正技术来说,可以将MR和CT图像中的伪影分类为[23]:(1)需要适当的滤波算法处理的伪影,如噪声伪影、敏感性伪影、存在非清晰边缘的伪影;(2)需要适当图像修复算法的伪影,如运动伪影;(3)需要特定算法的伪影,如部分容积和灰度不均匀性。图像处理领域尽管在已存在很多算法处理上述问题,但是医学图像分割仍然是个复杂和具有挑战性的问题。从医学图像处理过程的角度来看,基于灰度和基于纹理特征技术的分类是常规的分类方式[24]。此外,用机器学习的工具去优化这些图像分割算法是当前较受关注的技术[25].
CT和MR图像的分割主要涉及3个相关问题:变化的噪声、像素灰度分类的不确定性及灰度的非均衡性[26]。图像中单一组织的灰度水平一般是逐渐变化的,且其概率密度服从特定的分布函数,该组织对应的图像区域包含有限的像素(或体素)且满足部分容积平均,然而该区域中的单个像素(或体素)的灰度不与任何一类一致,往往被看作混合组织类[28]。
FCN
传统的基于卷积神经网络的分割方法的做法通常是:为了对一个像素分类,使用该像素周围的一个图像块作为卷积神经网络的输入用于训练和预测。这种方法有几个缺点:一是存储开销很大。例如对每个像素使用的图像块的大小为15x15,则所需的存储空间为原来图像的225倍。二是计算效率低下。相邻的像素块基本上是重复的,针对每个像素块逐个计算卷积,这种计算也有很大程度上的重复。三是像素块大小的限制了感知区域的大小。通常像素块的大小比整幅图像的大小小很多,只能提取一些局部的特征,从而导致分类的性能受到限制。
针对以上问题, Long Jonathan等人[52]2015年提出全卷积网络(FullyConvolutional Networks, FCN)结构。FCN可以对图像进行像素级的分类,从而解决了语义级别的图像分割问题。与经典的卷积神经网络在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全联接层+softmax 输出)不同,全卷积网络可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征图进行上采样, 使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类,完成最终的图像分割。FCN的网络结构如图 1 所示。
在FCN网络结构的基础上,Korez 等人[53]提出了3D FCN网络结构,并将3D FCN网络分割出的脊椎结构用形变模型算法进行优化,进一步提高了脊柱MR图像的分割准确率。Zhou等人[54]将FCN算法和多数投票算法相结合,在人体躯干CT图像中分割出了19个目标。在网络训练过程中,将经过每一个像素点的矢状面、轴状面、冠状面的CT图像分别输入至2D FCN网络进行训练,并用3D Majority Voting算法对三幅图像的分割结果进行表决,得到最后的分割结果。Moeskops等人[55]采用脑部MRI、心肌MRI和冠状动脉在心脏CT血管造影(CTA)中的冠状动脉图像同时训练一个FCN网络,使得训练好的网络可同时用于这三类目标的分割。
FCN在对图像进行分割时,上采样层将特征恢复到原图像的大小,此过程会导致像素定位不精确,从而影响分割结果的准确性。为了解决这一问题,许多研究者采用MRF算法[56]或CRF算法[58]对FCN输出的分割结果进行改进,进一步优化分割结果。
3.2U-net
2015年,OlafRonneberger等人[64]提出了U-net网络结构,U-net是基于FCN的一种语义分割网络,适用于做医学图像的分割。
U-net网络结构与FCN网络结构相似,也是分为下采样阶段和上采样阶段,网络结构中只有卷积层和池化层,没有全连接层,网络中较浅的高分辨率层用来解决像素定位的问题,较深的层用来解决像素分类的问题,从而可以实现图像语义级别的分割。与FCN网络不同的是,U-net的上采样阶段与下采样阶段采用了相同数量层次的卷积操作,且使用skip connection结构将下采样层与上采样层相连,使得下采样层提取到的特征可以直接传递到上采样层,这使得U-net网络的像素定位更加准确,分割精度更高。此外,在训练过程中,U-net只需要一次训练,FCN为达到较精确的FCN-8s结构需要三次训练,故U-net网络的训练效率也高于FCN网络。
U-net网络结构如图2所示, 蓝色箭头代表卷积和激活函数, 灰色箭头代表复制剪切操作, 红色箭头代表下采样, 绿色箭头代表反卷积,conv 1X1代表卷积核为1X1的卷积操作。从图中可以看出,U-net网络没有全连接层,只有卷积和下采样。U-net可以对图像进行端到端的分割,即输入是一幅图像, 输出也是一幅图像。
U-net网络提出后,在医学图像分割领域表现优秀,许多研究者均采用U-net网络结构做医学图像分割,并在U-net网络结构基础上提出改进。Çiçek等人[65]提出3D U-net网络结构,该结构通过输入3D图像连续的2D切片序列实现3D图像分割。Milletari等人[66]提出了U-net网络结构的一种3D变形结构V-net,V-net结构使用Dice系数损失函数代替传统的交叉熵损失函数,且使用3D卷积核对图像进行卷积,通过1x1x1的卷积核减少通道维数。Drozdzal等人[67]提出在U-net网络结构中不仅可以使用长跳跃连接结构,也可以使用短跳跃连接结构。
在病灶分割任务中,深度学习算法需要完成目标识别、器官分割和组织分割等多项任务,因此分割过程中应结合图像的全局信息和局部信息来实现病灶的准确分割,Kamnitsas等人[68]和Ghafoorian等人[69]都提出使用多尺度卷积来提取图像全局信息和局部信息。此外,Wang等人[70]提出一种伤口图像分析系统,先用U-net网络对伤口图像进行分割,再用SVM分类器对分割出的伤口图像进行分类,判断伤口是否感染,最后用GP回归算法对伤口愈合时间进行预测。Brosch等人[71]使用U-net网络对脑部MRI中的脑白质病灶进行分割,并在U-net网络的第一层卷积和最后一层反卷积之间加入跳跃连接结构,使得该网络结构在训练数据较少的情况下仍得到了很好的分割结果。
RNN
在自然图像中,像素级的RNN被用作自回归模型,生成模型最终可以产生类似于训练集样本的新图像。
对于医疗应用而言,RNN可用于医学图像分割问题。 Stollenga等人[79]首次在六个方向上使用3D LSTM-RNN对脑部MR图像进行分割,用金字塔方式重新排列MD-LSTM中传统的长方体计算顺序,使得网络可以在GPU上并行训练,大大提高了网络训练效率,并在MRBrainS挑战中取得了很好的分割结果。Andermatt等人[80]使用带有门控单元的3D RNN网络分割脑MR图像中的灰质和白质,结合数据预处理和后处理操作,进一步提高了分割准确率。Chen等人[81]提出了一个基于FCN和RNN的三维图像分割新框架,这是第一个明确利用3D图像各向异性的DL分割框架。使用来自ISBI神经元结构分割挑战的数据集和3D真菌图像进行评估,他们的方法比已知的基于DL的3D分割方法在分割准确率上更胜一筹。Poudel等人[82]提出了循环全卷积网络(RFCN),将解剖学检测和图像分割将结合,形成一个端到端的网络结构,从而大大缩短了计算时间,简化了分割流水线,并为实时应用提供了可能。
GAN
一般来说,基于CNN的分割方法利用像素丢失来学习像素之间的局部和全局关系是不够的。所以需要统计建模方法,如条件随机场或统计形状模型来修正他们的结果。虽然已经提出了一些基于patch的CNN方法来解决这个问题,但是这些方法需要在准确性和patch大小之间进行权衡。人们又提出了一种基于U-Net的基于加权交叉熵损失的体系结构,但这些方法都面临着weights优化问题。所以除了加权损失外,还需要一般性损失来解决这个问题。GANs在医学图像分割主要在 大脑,胸部,眼睛,腹部, 显微图像, 心动, 脊柱。表5至10总结了基于GAN的分割方法。从已知的DNN架构来看,U-Net和ResNet 由于提供通用的识别功能,是最常用的网络,可用作基于GAN的分段模型中的生成器。
大脑
胸部
胸部x线图像分割的主要障碍是图像质量差、局部伪影和心肺重叠。Dai等人提出了一种基于GAN的解决方案(SCAN),增强分割的全局一致性,提取心脏和左/右肺的轮廓。这项工作的主要贡献是使用一个完全连接的网络与VGG下采样路径使用更少的特征映射。
眼睛
在视网膜血管分割中,许多基于CNN的方法甚至比人类专家的表现更好。Son等人将CNN替换为遵循生成器的U-Net架构的GAN。在两个数据集上的实验结果表明,利用传统的鉴别器可以获得最佳的性能,甚至优于人类专家的注释。
Lahiri et al.提出了一种基于DC-GAN的分割方法,将RoI patch从背景中分割出来。类似的CNN需要大量的训练数据才能很好地表现,而提出的结构使用九分之一的训练数据就可以达到类似的性能。
Shankaranarayana等人提出利用cGAN网络对二维彩色眼底图像进行分割。生成器是一个由对抗损耗和L1损耗构成的网络。
腹部
腹部MRI图像中脾脏大小和形状的不同,导致了CNN深度分割方法的错误标记。GANs模型可以解决这一问题。
显微图像
脊柱
1、GAN在医疗领域的优势
基于GAN的深度生成模型能够产生逼真的图像,在医疗图像独有的两个挑战中,Gan具有得天独厚的优势:
标注的稀缺性:通常,标注在医学图像中too expensive且难以获得。针对此类问题的基于监督学习的深度神经网络具有挑战性。正如合成和转化中的多项研究所证明的那样,GAN可以利用这两个即将到来的框架
不成对的数据:找到正确的数据(按像素或按区域)是极具挑战性的。GAN框架十分强大,例如cycle GAN从不成对的训练图像中学习独特的模式并产生逼真的输出。
2、缺点
本文确定当前形式的GAN中可能阻碍其在医学界发展的三个主要缺点:
合成数据的可信度:基本网络 - 发生器和鉴别器仍然是深度神经网络,其机制尚未得到很好的研究。在医学图像中,强度通常与某些含义相关,例如,可以基于CT数据的HU大致分类组织类型。目前GAN重建中缺少这种关联和映射,这一缺点足以让临床医生不信任GAN合成的图像。
不稳定的训练:许多文献指出GAN训练的数值是不稳定的。这会导致mode cllaspe等情况。state of the art的工作在真实图像的GAN训练中着重于解决这些数值不稳定问题。然而,在医学成像中,图像模式本身不清晰,如何识别这样的问题尚不清楚。
评估指标:评估reconstruction结果的最佳方法仍不清楚。在医学成像中,研究人员主要依靠传统指标(如PSNR或MSE)来评估GAN重建质量。然而这种指标的缺点是人们选择GAN的主要原因。