ABSTRACT
结合器官形状和位置的先验知识是提高图像分析方法性能的方法。由于图像采集技术的限制,可能存在被破坏或者人为干扰的情况,在这种情况下,先验知识很有用。有高约束的解剖学物体可以很好的被基于学习的技术捕获。然而,现在的很多已有的技术,如基于CNN的分割方法并不能和先验知识相结合。目前最先进的方法是以像素级分类来进行分割,训练的目标物体不包含输出的结构和相互依赖性。为了解决这个局限性,我们提出了一个通过一个新的模型结合解剖学先验知识和CNNs的通用策略,进行端到端的训练。新的框架鼓励模型根据学习形状的非线性表示得到的全局解剖学特性来进行分割。我们展示了提出的方法在不同分析任务上都可以使用,且提高了预测准确率。
Introduction
先验知识如边界和边缘极性;形状模型;拓扑规范;区域之间的距离;地图集模型等通常在传统分割方法基于能量优化的方法中作为正则化项。
在神经网络中,早期形状分析的工作集中在从DBMs学习生成模型,即ShapeBM,使用具有稀疏像素连通性的DBM形式。然而全连接的DBM参数量大且模型训练结果取决于图像的大小。
例如在近期神经网络调研论文中
Methodology
在这部分,我们介绍现有的基于卷积神经网络的图像分割和超分辨率的方法。我们提出了一种新的方法,通过使用解剖学形状先验来约束输出空间的扩展CNN模型。
A. 基于CNN模型的医学图像分割
令表示图像的标签类,代表不同的组织类型,。令为输入图像。图像分割的目的是预测。在基于CNN的分割模型中,该任务通过学习一个辨别函数来模拟底层条件概率分布
类别强度的评估包括每个属于C类中任一类的概率,产生通过学习的非线性函数提取的C类特征映射。最后通过应用softmax确定类别标签。
在UNet和DeepMedic模型中,我们学习在强度和标签中的特征映射,使用随机梯度下降优化平均交叉熵损失函数。如图2中所示,映射函数φ是通过将输入图像通过一系列卷积层和跨不同图像尺度的线性单元来计算的,以扩大模型的感受野。
模型由两部分组成,与VGG-Net相似的特征提取和重建。与已有的方法相比,我们目的是通过高分辨率标签图训练上采样层实现sub-pixel分割准确率。这使得在厚切片2D图像堆叠采集(例如电影心脏MR成像)的情况下能够对下面的解剖结构进行3D分析。 通过这种方式,可以对高分辨率图像网格执行分析,而无需使用SR模型进行任何先前的上采样操作。
B. 卷积自编码模型和ACNN-Seg
AE是一种通过学习重建原始输入的中间表示的神经网络。有一个隐藏层h。为了避免AE直接复制其输出,通常输出code的大小比输入维度要小,如图3所示。学习AE迫使网络捕捉最显著的特征。学习过程最小化loss函数,其中 惩罚与不一样的。函数g和f被定义为AE的解码器和编码器组件。
在提出的方法中,AE整合到一个标准的分割网络中,作为正则化模型,将类标签预测约束到解剖学上有意义和准确的输出。交叉熵损失函数爱独立像素级熵进行类别预测,不保证全局连续性和合理的解剖学形状,即使分割网络有一个比分割结构大的感受野。这取决于反向传播梯度仅被像素级独立概率散度项参数化的实施,因此提供很少的全局内容。
为了克服这个限制,类别预测标签图通过AE来获得分割和其底层结构的低维参数。通过在预测和标签的基于AE的非线性低维映射,如图4所示,我们可以建立我们的ACNN-Seg,通过交叉熵损失函数和形状正则化的损失函数的线性组合来训练目标函数:
这里w对应卷积滤波器的权重,表示分割模型的所有可训练参数,并且在训练期间仅更新这些参数。连接参数决定形状正则化损失的权重和训练中的权重延迟项。等式中,第二项确保生成的分割和低维空间相似。为了加强形状正则化,参数在模型预测方面鼓励标签连续性,减少FP检测。第三项对应于权重衰减,以限制模型中自由参数的数量,避免over-fitting。提出的AE模型有卷积层和全连接层组成,如图3的中间部分所示,于堆叠卷机自编码器相似,模型参数细节在附录中。
用CNN对医学图像进行Super-Resolution
SP超分辨率图像生成是一个相反的问题,目标是灰复低分辨率LR图像空间带宽外的空间频率信息,以预测高分辨率HP图像,如图1 顶行所示。
因为高分辨率组成部分不存在于观察空间,所以通常训练样本用于预测最大相似HR输出。图像SR是一个ill-posed问题,因为对于给定的输入样本,存在有限数量的解决方案,但只有少数解决方案具有解剖学意义和准确性。
我们这里提出的SR模型学习一个特征映射函数去估计高分辨率图像,其中定义模型参数,如卷积核和批量标准化统计。参数通过在高分辨率标签和对应预测间最小化平滑损失函数,也称谓huber损失来优化。
SR训练的目标:
在提出的额SR框架中,我们使用图2相同的模型,他有两个主要的优点,
1) 网络在LR图像网格里生成图像特征而不是岁特征上采样,减少了储存和计算的消耗。早期上采样在HR空间中引入了冗余计算,因为在早期阶段通过执行转置卷积[49]没有向模型中添加额外信息。
2)第二个优点是使用一个大的感受野来学习解剖结构。捕获大型上下文确实有助于我们的模型更好地理解底层解剖结构,这使我们能够实施全局形状约束。 这是通过在平面内方向上使用多步产生多个尺度的SR特征图来实现的。
与ACNN-Seg模型相似,正则化SR模型来合成更有意义的解剖学高分辨率图像是可能的。为了实现这一目标,我们将标准的AE模型扩展到T-L模型,使我们能够直接从强度空间获得形状表示。
T-L网络模型和SR-ACNN
形状编码AE模型仅在分割masks上操作,这限制了在SR问题上的应用,其模型输出是一个强度图像。为了避开这个问题,我们通过将AE与预测器网络相结合,将标准去噪AE扩展到T-L正则化模型预测器可以将输入图像映射到一个解剖学下的低维无参数表示,通过AE学习。换句话说,它使我们能够学习隐藏的表示空间,该空间可以通过来自图像标签空间Y和图像强度空间X的非线性映射。SR模型也可以通过学习解剖学先验进行正则化。
网络结构在图像分析应用中有用的两个主要原因是:
- 可以建立一个可以用于除了图像分割以外其他功能(例如图像SR)的正则化网络。我们提出用这个新的正则化网络在SR的训练阶段,使模型除了标准像素(1距离)图像重建损失之外还学习图像的全局信息。这样回归SR模型被另外的分割信息引导,并且它对于成像伪像和缺失信息变得鲁棒。
- T-L模型的第二个重要的特征是学习表达的概括。AE和预测器的联合训练使我们能够学习从强度和标签空间中提取的表示。学习的codes编码可以从手动注释和强度图像解释的变化。 由于强度和标签空间之间的完美映射实际上是不可实现的,因此预期T-L学习代码由于包含附加信息而更具代表性。
T-L的模型训练分为两阶段,第一阶段,AE分别用ground-truth和交叉熵损失进行训练。之后通过最小化AE的预测和图3 中的预测器的预测间的欧几里得距离。一旦AE和预测器的损失函数收敛,这两个模型在第二阶段共同训练。使用两个单独的反向传播梯度来更新编码器,然后缩放两个损失函数以匹配它们的范围。第一梯度鼓励编码器生成可以由预测器容易地提取的结果。第二梯度确保可以在解码器的输出处获得良好的分割重建。
训练目标由权重decay,像素级和全局损失项组成。
学习隐藏表示
学习的低维表示h用于约束NN模型。低维编码使我们能够训练具有全局特征的模型,同时也为基础解剖学提供更好的泛化能力。然而因为我们使用这些表示的欧几里得距离从全局损失层反向传播更新分割和SR模型的参数,分析获取的codes的分布是很重要的。在图5中,由于空间限制,我们显示了用心脏MR分割训练的T-L模型的16个随机选择的code(64个中)的直方图。每个直方图都是使用完整数据集中每个样本的相应code构建的。观察到所学习的潜在表示通常遵循正态分布,并且它们不在多个簇中分离(例如,高斯的混合)。code的平滑分布确保了对主NN模型(SR,Seg)的更好监督,因为通过计算所获得的分布之间的欧几里德距离来反向传播全局梯度。
h = f(x)表示code。给定的惩罚函数促使网络学习潜在的低维数据流形并捕获其局部平滑结构。除了潜在分布的平滑性之外,预期提取的code是相关的,因为解码器沿三个空间维度合并一些code以构造转置卷积的输入特征图,但是这个特征不是我们研究的限制。