多模态脑肿瘤图像分割基准
摘要
本文结合MICCAI 2012和2013会议,报告了多模态脑肿瘤图像分割基准(BRATS)的建立和结果。20种最先进的肿瘤分割算法被应用于65个底、高评级胶质瘤患者的多对比MR扫描——由4个评分者手工标注,以及使用肿瘤图像模拟软件生成65个可比的扫描。定量评价结果显示,在分割不同肿瘤亚区(Dice得分在74%~85%之间)时,人类评分者之间存在相当大的差异,也同时说明了这项任务的难度。我们发现,不同的算法在不同的子区域上表现不同(与人类评分的可变性相当),没有一种算法同时在所有区域名列前茅。使用分层多数投票机制融合多个优秀的算法产生的分段始终排在所有单个算法之上,这表明还有进一步改进方法的机会。BRATS图像数据和手动标注继续通过在线评估系统作为持续的基准资源公开提供。
关键字:核磁共振成像,脑,脑肿瘤,图像分割
前言
胶质瘤是最常见的成人原发性肿瘤,起源于神经胶质瘤细胞,侵润周围组织。尽管胶质瘤研究取得了相当大的进展,患者的诊断效果依然很差。临床上把肿瘤恶性程度高的人群划分为高评级胶质瘤,生存率中位数为两年或者更短,需要立即治疗。通过将现有的基本评估替换为相对肿瘤子结构的高精度和可重复性的测量,能够自动分析脑肿瘤扫描的图像,并且对单个患者的诊断、治疗规划和随访具有巨大的潜在价值。然而,开发自动化大脑肿瘤分割技术具有一定的挑战性,因为病变组织仅通过强度变化来定义,相对周围正常组织,甚至专家评估者的手动分割显示,当相邻结构之间的强度梯度平滑或者部分输出或偏置场存在伪影时会存在着显著的变化。此外,不同患者的肿瘤结构在大小、扩展和定位方面存在很大的差异,这就禁止在形状和位置上使用强先验,而形状和位置是许多其他解剖结构分割的重要组成部分。
为了衡量目前脑肿瘤自动分割技术的发展水平,并对不同方法比较,举办了多模态脑肿瘤图像分割基准挑赛。为此,我们准备并制作了一套由多名人类专家反复手工绘制的肿瘤高、低级MR扫描的数据及,以及真实生成的已知的ground truth数据集。20种分割算法由各自的开发人员在这个特定的数据集上进行优化,在其余数据上进行测试。
肿瘤分割算法
近几十年来,就医学图像进行脑肿瘤定量的临床研究数量显著增加。大约四分之一的此类研究依赖于肿瘤体积测量的自动化方法。现有的脑肿瘤分析算法主要关注神经胶质瘤的定位。在方法上,许多最先进的肿瘤分割算法都是基于那些最初为其他结构或病理而开发的技术,最显著的是自动白质病变分割,其准确率已经达到了相当高。我们可以将目前大多数的肿瘤分割方法分为两大类:一类是生成概率方法,结合解剖学和外观的显示模式以获得自动的分割,可以很容易地结合特定领域的先验知识;另一类是判别方法,在没有任何领域知识的前提下,直接学习图像强度与分割标签直接的关系,将注意力集中在与肿瘤分割任务相关的特定图像特征上。
生成模型利用了不同组织类型的外观和空间分布的详细先验信息,它们对未见图像具有很好的泛化能力。然而对病变的先验知识编码是困难的。生成模型的一个局限是将图像的任何语意解释转换为合适的概率模型需要付出大量的努力。
判别模型直接从标注的训练图像中学习病变和其他组织外观的特征差异。为了对抗成像伪影、强度恶化形状的变化,它们通常需要大量的训练数据。判别模型的缺点是对强度特征过于依赖,分割仅限于使用与训练数据完全相同的成像协议获取的图像。
肿瘤结构专家注释
虽然模拟图像具有不同肿瘤结构的ground truth的定位信息,但临床图像仍需要手工标注。我们定义了四种类型的肿瘤内结构:水肿、非强化(固体)核心、坏死(液体填充)和非强化核心。这些肿瘤的子结构符合特定的放射学标准,并通过处理图像信息的算法识别出看似简单的区域,而不是对带标注的医学图像模式提供哦你生物学解释。
非增强核心标签也可能包括靠近肿瘤核心的正常增强血管结构,而水肿也可能由肿瘤的细胞毒性或血管生成过程或以前的治疗干预造成。
如图1所示,来自BRATS训练数据的例子,肿瘤区域由个别专家的注释推断(蓝线)和共识分割(洋红线)。每一行显示两例高级别肿瘤,低级别肿瘤或合成肿瘤。
- 水肿主要从T2图像分割,FLAIR序列用于反复检查水肿的扩展。T2和FLAIR中的初始“水肿”分割包含核心结构,随后要重新标记。
- 作为其他三种肿瘤子结构分割的辅助,所谓的粗肿瘤核心包括增强和非增强组织结构,首先通过评估T1c中的超强度来区分。
- 肿瘤的增强核心随后通过阈值化大肿瘤核心内的T1c增强来分割,包括增强肿瘤边缘的轮廓,排除坏死中心和血管。
- 坏死(充液)核心定义为T1c课件的强化边缘内扭曲、低强度坏死状态。
- 非增强(实体)核心结构定义为大肿瘤剩余的核心部分,即减去增强核核坏死核结构后。
如图3所示,通过专家评价者进行手工标注。图中显示的是带有肿瘤结构的图像补丁,这些肿瘤以不同的方式标注(左边),以及整个数据集的最终标签(右边)。图像补丁显示从左到右:整个肿瘤可见的FLAIR(A);T2中可见的肿瘤核心(B);T1c中可见的肿瘤增强结构(蓝色),囊性/周围坏死核心(绿色)(C)组件。最终分割成肿瘤结构(D)的最终标签:水肿(黄色),非增强固体核心(红色),坏死或囊性核心(绿色)和增强核心(蓝色)。
获胜算法属性
大多数排名靠前的算法都依赖于判别学习方法,第一步生成低层图像特征,第二个应用判别分析器,利用MRF正则化将局部特征转换为类概率,生成最终的分割集。Zikic和Menze都将声称模型的输出作为判别分类器的输入,以增强强度特征的鲁棒性。然而,其他仅使用图像强度和标准归一化算法的方法也取得了惊人的效果。Zhao的空间处理在区域“超体素”水平上考虑肿瘤结构信息,在“整体“肿瘤和”肿瘤“核心上做的特别好。
在参与的算法中,所需的计算时间差异很大,从几分钟到几个小时不等。我们发现大部分的计算负担与特征检测和图像配准子任务有关。此外,我们还观察到,对图像分辨率和图像子采样量的良好理解可以在速度改进和分割质量之间取得良好的平衡。
虽然我们能够识别出几个总体上获胜的算法属性,但是图像分析基准测试的一个普遍限制是,通常很难解释为什么某个特定算法的表现好,甚至更难解释它为什么做的不好。这是因为即使是最好的算法算法流程,如果有一个元素参数化或实现的不合适,那么这个算法也会失败。检测这类故障需要对流程中的每一个点进行细致的研究,例如对基于学习的方法,强度标准化、特征提取、分类算法和空间正则化等都是关键点。
总结
在面对复杂和昂贵的注释任务时,可以为测试数据生成多个注释,而不是仅仅为训练集生成注释。虽然脑肿瘤分割对人类评分者来说都是困难的,但是目前已有的算法对整个肿瘤分割的Dice评分可以达到80%以上。分割肿瘤核心区域,尤其是高等级胶质瘤的活性核心区域,难度更大,Dice得分分别为70%和60%。同时本研究发现,融合不同的分割方法可以显著提高性能。通过对固定算法分割应用多数投票机制获得的决策,优于最好的单个分割算法。这表明除了突破单个肿瘤分割算法的局限性,还可以通过研究如何实现和融合多个肿瘤分割算法来获得较好的收益。
原文可以直接搜索文章题目获得
官方网站:https://www.med.upenn.edu/sbia/brats2017/data.html