Bolei Xu , Jingxin Liu , Xianxu Hou , Bozhi Liu , Jon Garibaldi , Member, IEEE, Ian O. Ellis,
Andy Green , Linlin Shen , and Guoping Qiu
摘要--深度学习方法因其在组织病理学图像分析中所取得的显著成绩而被广泛应用。然而,在处理高分辨率组织病理学图像时,利用原始图像作为深度学习模型的输入计算代价很高,同时调整原始图像的大小以获得低分辨率会导致信息丢失。为了避免对原始图像进行处理,出现了一些基于注意力的硬方法来从图像中选择可能的病变区域。然而,这些基于注意力的方法通常需要很长的时间才能收敛于弱制导,而无价值的补丁可以通过分类器进行训练。为了解决这一问题,我们提出了一种深度选择性注意的方法,目的是在原始图像中选择有价值的区域进行分类。在我们的方法中,我们开发了一个决策网络来决定在哪里进行切割,以及是否有必要在分类。然后,这些选定的补丁由分类网络进行培训,然后分类网络向决策网络提供反馈,以更新其选择策略。利用这种协同进化训练策略,我们证明了我们的方法能够获得较快的收敛速度和较高的分类精度。我们的方法是在一个公共乳腺癌组织病理学图像数据库上进行评估的,与最先进的深入学习方法相比,它表现出了优越的性能,实现了大约98%的分类准确度,而只达到了前一个高度关注方法的50%。
I. INTRODUCTION
乳腺癌是女性的主要关注点,因为其死亡率高于其他癌症[1]。因此,早期检测和准确评估对于提高存活率是必要的。在临床乳房检查的过程中,病理学家提供诊断报告通常是很费时费力的。因此,发展计算机辅助诊断(CADX)以减轻病理学家的工作量是一个很大的需求。近年来,深度学习方法[2]–[4]因其在各种医学成像任务中的显著表现而被广泛应用于组织病理学图像分析。然而,深度学习方法的一个问题是原始图像的大小通常很大。直接将原始图像输入深度神经网络的计算成本很高,并且需要几天的时间在GPU上进行训练。以前的方法通过调整图像大小以获得低分辨率[5]–[7]或从图像中随机剪切补丁[8]来解决这个问题。然而,这两种方法都会导致信息丢失,并且考虑到有异常的图像部分的详细特征可能丢失,这些方法可能导致误诊。另一种方法是使用滑动窗口[9]裁剪图像补丁。然而,考虑到在某些情况下异常通常只存在于一小部分,因此将选择大量与病变部位无关的斑块。
此外,人类视觉系统的一个特点是它不必同时处理整个图像。因此,在临床诊断任务中,病理学家首先有选择地关注异常区域,然后对异常区域进行详细调查。受这种人类视觉特性的启发,许多作品[10]–[12]采用基于注意力的深度学习方法来突出图像中可能的损伤部位。注意机制主要有两种:硬注意和软注意。硬注意旨在识别图像中一系列感兴趣的区域,而软注意通常试图学习每个像素的重要性权重。由于病理组织学图像的大小通常很大,因此在以前的一些著作[4],[13]中,人们越来越重视这个问题,在这些著作中,这个问题被表述为一个部分观测的马尔可夫决策过程(POMDP),通过坐标随机地从图像中采样斑块,而不直接对原始图像进行处理。然而,这些基于pomdp的方法的一个问题是采样过程不高效,因为无值和冗余的补丁也由分类器训练。因此需要很长时间才能实现收敛。此外,在这些方法中,长短期记忆网络不仅需要对图像进行采样,还需要完成分类或回归任务。因此,该模型的训练难度大且不稳定。
为了克服上述问题,我们提出了一种组织病理学图像分类的深度选择性注意方法,这是基于我们的初步会议论文[13]。该方法包括决策网络(DENET)和软注意分类网络(SANET)。DENET用于从图像中选择最有用的补丁进行分类。该决策基于SANET的学习进度和输入数据的统计。我们的方法和以前的努力工作的主要区别在于,并不是每个修剪的小块都被用于分类。相反,我们寻找能够增强SANET识别能力的图像补丁。在某些情况下,即使与图像中的病变部分相关,也可以放弃修剪后的贴片,并且可以被SANET很好地分类,因为该贴片对提高SANET的识别能力可能影响很小。在另一种情况下,DENET将选择那些在当前阶段被错误分类的补丁来纠正它们的预测。因此,通过实现我们的方法,DENET选择最有用的补丁来训练分类器,而不是像前面的工作那样使用所有裁剪的补丁。这种学习策略使我们的方法能够实现更快的训练收敛速度。另一方面,我们构建了两个网络分别进行选择和分类任务,并提出了协同进化训练策略,以确保两个网络在训练过程中相互协作,从而使整个框架比以前基于POMDP的方法更稳定、更容易训练。我们在公共乳腺癌数据集(Breakhis[14])上评估了我们的方法,其中我们的方法优于最先进的方法,显著提高了分类的准确性。此外,我们还表明,与以前基于POMDP的方法相比,我们的方法所需的培训时间要少得多[13]。
本文的主要贡献有三个方面,总结如下。(1)提出了一种新的选择性注意机制,从Breakhis数据库的原始组织病理图像中寻找关键区域。这使得SANET能够使用最有用的训练样本,从而提高SANET的识别能力,实现快速收敛。(2)提出了一种协同进化训练策略,使DENET和SANET同时训练,使整个框架更稳定、更容易训练。(3)这种方法在公共乳腺癌数据集上显示出比以往最先进的方法优越的性能,这对于计算机辅助乳腺癌诊断很重要。
II. RELA TED WORK
A. Visual Attention
注意力机制的概念由于能够提取有意义的特征并忽略不必要的信息,近年来在深层神经网络的构建中得到了广泛的应用。这种关注机制已成功应用于各种图像分类任务中的图像特征学习[15]、[16]。它们还可以在其他相关研究领域发挥重要作用,包括图像字幕和视觉问答[17]–[19]。Wang等人[15]采用深度剩余注意网络,将多个注意块叠加在剩余网络中。最后在每个块中学习一个注意力屏蔽,以过滤有用的信息。Hu等人[16]开发一种基于渠道的注意力机制,通过学习每个渠道的注意力权重来生成注意力特征。Chen等人[20]建议通过软max层学习深卷积神经网络中的空间和信道注意事项。Schlemite等人[21]以及他们的进一步工作[22]也试图应用关注机制来解决医学成像的分类和分割问题。张等。[11]提出了一种用于皮肤损伤分类的注意剩余学习卷积神经网络。它由多个注意剩余块组成,并在深度神经网络中利用了一种自我注意机制。虽然这些注意机制通常会显著提高深度神经网络的性能,但它们都必须处理整个图像,这就要求将原始图像调整到较低的分辨率,或者使用滑动窗口从图像中提取补丁。直接将这些策略应用到数据集(如breakhis)不可避免地会导致信息丢失和/或高计算成本。相比之下,我们的方法不直接从breakhis数据集访问原始图像,而是通过坐标自动选择关键区域,以节省计算成本并将细节保存在图像中。
B. Histopathological Image Classification
特征工程是实现多类乳腺癌精确分类的主要问题。张等。【23】采用基于核的主成分分析法对乳腺癌组织病理图像进行良恶性分类。Wang等人[24]进一步利用四种形状和138种文字特征实现二元分类。Bahlmann等人[25]将RGB贴片转化为两个通道,一个通道增强苏木精染色,另一个通道显示伊红染色。这些传统的方法需要人工设计的特征来表示图像内容,这可能无法准确地捕捉病变区域的关键属性。
深度学习方法由于其显著的性能和端到端的训练策略,最近已被应用于组织病理学图像的分类。Liu等人[26]提出了一种深度自动编码分类网络,可以同时对输入图像进行重构和分类,以学习健壮的图像特征。斯潘诺尔等人[9]应用预先培训过的Alexnet来精确显示图像特征。Han等人[6]利用分层特征表示进行乳腺癌多分类。他们的方法采用端到端的训练方案,从低层次到高层次自动学习层次特征,并在特征层次空间中考虑类内和类间关系。[27]将深度特征与Fisher向量相结合。在他们的进一步工作[28]中,他们使用Fisher向量对基于CNN的局部特征进行编码,并将Fisher向量转换为高级别的识别特征空间。Gupta和Bhavsar[29]建议利用关节颜色和纹理特征对乳房组织病理学图像进行分类。他们还探索了不同层次特征的表示能力,以提高特征表示的识别性[30]。他们最新的研究整合了乳腺癌分类的resnet特征[31]。我们之前的工作[13]首先将分类过程视为一个POMDP,然后采用混合注意机制来确定原始图像中的病变部位。它使网络能够处理选定的补丁而不是整个输入的原始图像,从而节省计算成本并聚焦于图像的病变部位。然而,在这项初步工作中,每个图像补丁都必须在训练过程中进行分类,这需要很长的训练时间才能实现融合。为了解决这个问题,我们在前面的工作基础上,开发了一种新的深度学习方法,选择性地训练图像补丁,从而去除多余的训练样本,减少训练时间,提高模型的分类精度。
III. PROPOSED METHOD
提出的深度选择性注意网络模型由一个循环决策网络和一个软注意分类网络组成。在每次训练迭代中,我们将组织病理学图像分类任务定义为一个POMDP问题,这意味着网络无法完全访问原始图像,必须根据当前观察区域做出决定。对于小批量中的每个图像,它由两个阶段处理,包括“选择”和“分类”,如图1所示。在“选择”阶段,我们设计了一个决策网络(DENET),基于硬注意机制识别原始图像中可能的病变区域。在“分类”阶段,SANET利用软注意机制捕获选定补丁的详细特性,并为每个输入补丁分配标签。在培训过程中,两个网络相互协作,实现协同进化。我们现在深入研究这个模型的细节。
A. “Selection” Stage
在“选择”阶段,我们设计了一个DENET,根据图像中补丁中心的坐标,从原始图像中迭代地裁剪k=5个感兴趣区域(ROI),而不直接访问原始图像。DENET是基于循环的LSTM网络构建的,如图2所示。LSTM非常适合于时间序列数据的分类、处理和预测。在本文中,我们将ROI选择定义为一个POMDP问题,其中状态特征(表一)主要是时间序列数据(例如位置信息)。LSTM模型可以通过记忆过去时间段中的状态特征更好地预测期望的投资回报率。相比之下,卷积神经网络不适合处理时间序列数据。当与比较(RNN),LSTM能较好地处理训练过程中的梯度消失问题,这意味着LSTM比RNN更容易训练[32]。在每个时间步骤中,LSTM都有两个主要任务:(i)通过硬注意机制决定在原始图像中的何处裁剪一个补丁;(ii)决定裁剪的补丁是否有助于提高SANET的识别能力。
DENET中的硬注意机制设计用于确定小批量中每个图像中可能的损伤部位。在时间步骤t,硬注意传感器根据Denet在最后一个时间步骤中预测的位置信息lt−1(原始图像中补丁的中心坐标)接收部分图像补丁xt。裁剪后的补丁的图像尺寸比原始图像小得多,而X,W,H,I,C,H是一个粗糙的区域,可能与异常部分有关。我们没有构造新的卷积神经网络来提取裁剪区域的特征,而是直接使用SANET的特征层(图3)来表示图像特征。应用这种特征提取策略有两个优点:(i)它能够节省计算成本并加快计算速度;(ii)SANET学习的特征可以作为SANET学习状态的一部分构造,DENET可以根据这一重要特征做出决策(我们将详细介绍在下面的章节中)。
由θdmodel参数化的denet对动作策略πθd(st)进行建模,根据每个时间步的状态特征进行决策。状态特征s=(fe,fd)是两个特征的组合:SANET fd的学习状态表示和输入数据统计fe。SANET的学习状态表示fe构造为(i)历史培训损失的平均数;(ii)迄今为止验证数据集的最佳分类结果;以及(iii)通过的迭代数。传入数据统计fd当前裁剪的图像补丁包括(i)来自SANET特征层的深层特征;(ii)SANET预测的标签;(iii)其地面真值标签;以及(iv)位置信息lt-1。各部件的详细信息见表一。
从表一可以看出,深度特征的长度占总状态特征的比例比其他特征大得多。因此,直接将所有特征融合在一起将导致不平衡的状态特征表示。为了解决这个问题,我们将状态特征重新分配为深度特征C,其余状态特征Z:S=C∪Z。采用完全连接层将深度特征编码为低维特征:
wc∈rl×l在哪里?,bc∈rl?,l是深度特征的尺寸,l?是编码图像表示的维数,而φ(·)是relu激活函数。同样,应用另一个完全连接的层对剩余的特性z进行编码,以生成编码的特性z?以下内容:
wz∈ru×u在哪里?,bz∈ru?,u是指z和u的尺寸?编码特征的尺寸是Z吗?.we t h e n通过连接c构造lstm的输入状态特性?还有Z?以下内容:
式中:ws∈r(l?+u?)×q,bs∈rq,q表示输入状态特征的维数,||表示串联操作。根据具有乙状结肠激活功能的LSTM的隐藏特征层,最终估计决策操作(是否使用当前补丁进行培训以及下一时间步骤的裁剪位置)。当为小批量中的每个图像选择k=5个区域时,选择过程将停止。
B. “Classification” Stage
“分类”阶段涉及由θfand参数化的软注意机制fs(xt;θf),它将观察到的图像区域xto编码为软注意地图,其中突出显示有价值的信息。由于裁剪后的面片的大小比原始图像小得多,因此计算裁剪后的面片的软注意比处理原始图像需要的资源要少得多。这是通过一个软注意网络(SANET)实现的,如图3所示。SANET包含一个mask分支和一个主干分支,该分支根据工作进行了修改[15]。主干分支由两个剩余单元(剩余单元的详细结构如补充材料所示)组成,用于从输入补丁中提取特征图。Soft Mask分支旨在通过对称自顶向下结构和SoftMax层学习[0,1]范围内的Mask M(xt),以规范化输出。具体来说,我们在mask分支中实现了两次maxpooling层,以增加剩余单元之后的接收字段。这导致用于收集输入补丁的全局特征信息的分辨率较低。然后,我们通过执行两次线性插值来扩展它,以便在一些剩余单元之后对特征图进行上采样。因此,它将特征映射的大小修改为与输入补丁相同。在1×1卷积层之后,使用乙状结肠层将输出范围标准化为[0,1]。
主干分支输出特征映射T(xt),而遮罩分支输出注意遮罩M(xt)。注意力特征图的计算方法如下:
整个等式(4)与剩余学习相似:在最坏的情况下,当软注意遮罩M(xt)接近0时,可以将其视为相同的映射,并且A(xt)将近似等于原始特征T(xt),这意味着性能不会比不应用软注意遮罩更差。最后一个基于软注意的特征映射fs(xt;θf)通过关注映射a(xt)上的全局平均池学习。接着是一个具有relu激活功能的完全连接的特征层,并学习输入补丁的特征向量,该特征向量也作为denet的状态特征的一部分。最后,我们使用一个Softmax层将输入贴片分为8种组织病理学肿瘤。
C. Reward Signal
在DENET选择数据后,所选数据将用于训练SANET。将对状态ST+1进行新的观察。一种奖励信号RTI,用于反映选择机制的性能。在本文中,奖励信号设计为:
其中rp表示SANET的训练进度,rc表示SANET的收敛性能。两个rtpand rt care都设置为终端奖励:它们只在每个迭代的最后一个时间步骤t计算。具体来说,训练进度奖励rtpis的计算精度为验证集上的τ∈[0,1];收敛速度奖励rt cis的估计指标为i?验证损失低于阈值的小批量
D. Network Optimization
在本节中,我们将描述如何优化DENET和SANET。在每次迭代中,SANET将交叉熵损失最小化:
其中,yi是Sanet的估计类标签,yi是地面真值标签。由于DENET中的难点是不可微的,我们采用策略梯度[33]训练DENET,以学习最优选择策略πθ(at| s1:t)。在本文中,我们的目标是最大化回报
为了使j最大化,j的梯度可近似为:
其中j=1…K是连续的剧集。方程式9鼓励网络调整所选行动概率的参数,以获得较高的累积奖励,并降低行动概率以降低奖励。尽管上述梯度估计为我们提供了一个无偏估计(由于[33],[34]中所示的事实),但它可能有很大的方差,使训练不稳定。克服这个问题的一个训练策略是通过减去基线[34]:
其中bt是历史时期的平均回报值。方程10的估计值与方程9的期望值相同,但方差可能较低。
E. Testing Phase
在测试阶段,DENET将从每个测试图像中选择五个ROI。五个补丁中的每一个都将由SANET分配一个类标签。在某些情况下,可能会为五个补丁分配不同的标签,在这种情况下,我们采用多数投票策略来决定测试图像的标签。例如,如果预测三个斑块为导管癌,而剩下的两块贴片被指定为小叶癌的标签,那么最后指定给测试图像的标签将是导管癌。有时,5个斑块不能以多数票作出最终决定(例如其中2个预测为导管癌,2个预测为小叶癌,1个预测为粘液癌),在这种情况下,我们利用DENET选择更多的斑块,直到一个预测类获得多数。
IV . EXPERIMENT
a.数据集
我们在公共数据集中断上评估了我们的方法[14]。该数据集包含7909张乳腺癌图像和8个乳腺癌亚类,从82名患者中收集,其中58名为恶性,24名为良性。良性和恶性乳腺肿瘤都由病理学家用显微镜标记。因此,这些肿瘤组织图像是在40倍、100倍、200倍和400倍的四种光学放大率下拍摄的。数据集包含四种组织病理学类型的良性乳腺肿瘤:腺癌(a)、纤维腺瘤(f)、叶状瘤(pt)和管状腺瘤(ta);以及四种恶性肿瘤:导管癌(dc)、小叶癌(lc)、粘液癌(mc)和乳头癌(pc)。breakhis数据集的类分布如表二所示。Breakhis数据集中的数字化图像是由Olympus BX-50系统显微镜从乳腺组织载玻片上获得的分辨率为700×460的单个图像片。有关数据集的详细信息,请参阅[14]。
b.Implementation
在实验中,我们首先按照[14]和[6]的实验方案,随机将患者的breakhis数据集分为一个训练(70%)数据集和一个测试(30%)数据集。为了估计方程式6中的收敛奖励信号rt c,我们进一步使用25%的训练数据集(即15名患者)进行验证,并使用剩下的75%的训练数据集(即42名患者)进行网络训练,而测试患者数(即25名患者)与[14]f中的实验方案相同。或者一个公平的比较。各褶皱的数据分割详情见表二。在所有的实验中,训练数据集用于训练深度学习模型,验证数据集用于微调超参数,测试数据集用于评估学习的方法。因此,对于实验中的所有表,我们报告了测试数据集的分类精度。结果是通过五次试验的平均值得出的,分类精度和标准偏差都是按照先前工作的方法报告的[14]。如[14]所述,本实验方案独立应用于每种放大率。在训练之前,我们通过应用旋转、水平和垂直翻转来增强breakhis数据集中的图像,这将导致原始训练数据的3倍。数据集中的图像大小为740×460。对于DENET,应用以下设置:1)权重在(−0.01,0.01)之间均匀初始化。2)偏差值在fc层中初始化为0。3)我们使用L2规范化来规范化输入状态特征。4)批量大小设置为4,学习率设置为0.001,应用Adam优化器。5)门槛?在方程式6中,设为0.25,这在第IV-J节中讨论过,我们设定了预先定义的迭代数t?=200。
对于SANET,我们选择学习率为0.01的Adam优化器,该优化器在各个时期内呈指数衰减,并且将批大小设置为20。在一个工作站上进行了四个Nvidia1080TiGPU的实验,并以Pythoch为平台实现了该代码。
C. Evaluation Metrics
我们的方法的性能首先由患者识别率(PRR)来评估。PRR旨在计算正确分类的组织与组织总数的比率。
其中n是测试数据中的患者总数。对患者P和NP的正确分类组织进行重新分类,即患者P的总组织数。然后我们在图像级别(IRR)评估识别率,其目的是在不考虑患者信息的情况下单独评估图像分类率。如果网络正确分类了所有图像中的nRecimages,则图像级别的识别率公式如下:
D. Comparing to Baseline Methods
由于我们提出的方法利用了注意学习和剩余学习,我们首先将我们的方法与深度剩余注意学习方法(DRAN)[15]和一个最先进的注意网络SENET[16]进行了比较。我们还将我们的方法与其他著名的深度学习框架进行了比较,包括vgg-16[35]、vgg-19[35]和resnet-50[36](所有这些框架都首先在Imagenet数据集上进行了预培训,然后整个网络在breakhis数据集上进行了微调)。
结果如表三(患者级别)和表四(图像级别)所示。从这两个表中可以看出,与所有基线模型相比,我们的方法实现了最佳性能。我们的方法(8月)的患者水平的平均准确度在不同放大倍数下为98.1%,图像水平的平均准确度为97.9%。可以注意到,通过使用数据增强策略,性能有了轻微的提高:患者级别的平均准确度从97.5%(原始)增加到98.1%(8月),而图像级别的平均准确度从96.6%(原始)增加到97.9%(8月)。这个改进的主要原因是训练数据量较大,数据量增加。它使网络能够避免过拟合,并从增强图像中捕获更多信息。也可以观察到,当应用数据增强时,标准偏差减小。这意味着网络更稳定,有一个更大的训练数据集可以学习更具辨别性的特征表示。
很明显,我们的方法明显优于基于注意力的方法(dran和senet)和非注意力深度学习框架(vgg-16、vgg-19和resnet-50)。我们方法优越性的原因可以归结为两个因素:(i)我们采用了一种硬注意机制,以避免像在这些深度学习方法中那样调整图像大小,从而防止信息丢失;(ii)由于数据集的大小相对较小(共7909个),因此不必采用非常深的神经管。L网络。使用非常深的网络必然会导致过度拟合问题,从而降低测试数据集的网络性能。通过比较vgg-16和vgg-19,也可以验证这一点,其中vgg-19没有表现出比具有更深层网络结构的vgg16更好的性能。我们还展示了图4中不同放大系数的混淆矩阵。可以看出,PC机和MC机之间的混淆主要是由于它们的高度相似性导致性能下降。
E. Comparing to State-of-the-Art Methods
我们还将我们提出的深度学习框架与在Breakhis数据集上报告结果的最先进方法进行了比较([6]、[9]、[13]、[14]、[27]、[29]、[30]、[37]–[41])。结果如表三(患者水平)和表四(图像水平)所示,说明了我们的方法。
优于所有以前的方法。值得注意的是,我们的方法比大多数CNN方法的精确度要高[27]、[38]、[39]。我们相信这是通过精心设计的注意机制实现的,这些注意机制为SANET选择了有用的区域。具体来说,DENET中的硬注意机制识别出与异常部分最相关的区域,SANET中的软注意机制突出了这些异常特征。因此,我们的方法可以防止在中断数据集中调整图像的大小,这可能导致信息丢失,并使网络能够通过小尺寸图像补丁处理图像,以节省计算成本。与我们以前的工作[13]相比,本文的改进模型可以更好地预测班级标签,并且在培训过程中更稳定,达到更低的标准差。这主要是由于我们的新方法所涉及的选择机制。选择机制能够为SANET提供最合适的培训样本。因此,利用噪声训练样本可以防止SANET的训练,提高SANET的识别能力。低标准偏差(约0.2)也表明我们的方法是稳定的,对输入数据不敏感。模型可以根据验证数据集学习最优参数。我们还观察到大量的方法([9]、[13]、[27]、[30]、[31]、[37]、[39]、[41])在400倍放大时表现较差。主要原因是400倍放大的图像片更有可能包含接收场较小的不完整组织结构,以从原始图像中获取信息,这在某些情况下可能导致错误分类。
F . Significance Study
我们将方法(aug)的性能与以前的一些具有公开代码的方法进行了比较。这些方法包括dran[15]、senet[16]、resnet-50[36]和先前最先进的方法isbi'19[13]。弗里德曼检验用于检测不同方法的性能差异,然后对每对组进行两样本配对符号检验,以确定差异所在。使用R(版本3.6.1)中的“friedman.test”包进行统计比较。对患者水平数据和图像水平数据进行了测试,每种放大倍数分别为40倍、100倍、200倍和400倍。这些统计测试的详细信息显示在补充材料中。弗里德曼检验证实,所有比较方法之间存在差异,事后检验结果证实,我们的方法比比较方法在统计学上有显著改善。
G. Ablation Study
我们在深度选择性注意力框架中评估每个组成部分。我们设计了四个基线:1)消除难以引起注意(−H.A):我们不使用坐标来选择图像补丁。相反,我们将图像大小调整为112×112,然后使用DENET为SANET选择适当的训练图像。2)消除软注意(−s.a,+resnet):整个sanet被删除,denet选择的补丁按resnet-18或resnet-50分类。换句话说,SANET被resnet-18或resnet-50取代。3)删除DENET(-DENET):将DENET从框架中删除。图像大小调整为112×112,并由SANET分类。4)从奖励函数(−rtp、−rt c)中移除rtpor rt cfs:从奖励函数中移除的rtpor rt cis(方程式5)。5)不应用方程3(方程式3):方程3不用于实现平衡特征表示。在这种情况下,学习状态表示直接与输入数据统计信息融合,以表示DENET中的输入状态特征(状态特征的长度为135)。然后将状态特征输入一个完全连接的层(1×1×24),然后再输入relu激活函数,以获得嵌入的状态特征,然后将其用作LSTM的输入。6)随机选择和随机初始化:随机选择是指我们从每个图像中随机裁剪5个补丁,用于训练不适用DENET的SANET。随机初始化是指用正态分布(Pythost中正态分布的默认平均值为0,标准差为1.0)随机初始化DENET的权重。
其他设置与第IV-B节所述设置相同。
结果如表五所示。可以看出,当采用硬注意和软注意机制时,模型能够达到最佳性能。当不易引起注意时,我们必须将图像的分辨率调低,这不可避免地会导致信息丢失。在调整大小的过程中,损伤部分的细节可能会被放弃。因此,分类的性能在图像级别和患者级别分类上都略有下降。当软注意被resnet所取代时,我们发现性能也显著降低。性能下降是因为所有的图像区域都被resnet平等地处理以提取图像特征。这意味着网络也会处理一些冗余的特性,这些特性可能包含会导致错误分类的噪声特性。因此,应用软注意机制来突出有用的特性,鼓励网络忽略那些不必要的信息。DENET是提高分类精度的关键部件。我们可以看到,当DENET不适用时,分类精度会大大降低。在这种情况下,图像必须调整大小以适应SANET的输入形状,这会导致信息丢失。另一方面,所有的训练图像都用于训练SANET,这可能包括冗余和噪声样本。因此,它的分类性能无法与使用DENET的完整模型相比较。
当评估奖励函数的组成部分(方程式5)时,我们可以看到,rtpor-rt-cis对于提高分类精度很重要。具体来说,删除rtpis后,分类精度显著下降。这意味着验证数据集上的分类精度是反映SANET培训进度的关键奖励信号,因此DENET可以根据该奖励信号提供最合适的补丁。当从奖励函数中删除rt-cis时,分类精度略有降低。这是因为它能够鼓励DENET拒绝冗余和无用的训练样本进行分类,以实现快速的收敛速度。然而,当使用RTPIS时,DENET可以继续选择关键区域进行分类。因此,与去除RTP相比,去除RT C会导致精度降低较小。
然后我们评估方程3在特征平衡上的有效性。可以看出,当方程3不适用时,分类精度显著下降。在这种情况下,深层次特征控制所有剩余的状态特征(128对7),DENET可能严重依赖深层次特征来做出可能导致非最优选择的决策。因此,有必要实现特征平衡,即嵌入深度特征和其他特征,如图2所示。
也可以看出,随机选择策略大大降低了分类精度。主要原因是,随机选择无法知道哪些区域包含有用的信息,它可以为训练SANET而裁剪不必要或嘈杂的补丁。我们还发现,随机初始化也略微降低了预测精度,增加了标准差。原因是随机初始化通常将DENET中的偏差项设置为非零值,导致在早期阶段过滤了太多的补丁。
H. How Does the Number and Size of ROI Affect Classification Accuracy?
我们还研究了在选择阶段ROI的数量和大小如何影响分类精度。我们利用DENET选择的3、5、7和9个ROI进行评估,补丁大小分别设置为56×56、112×112和224×224。我们报告了四种不同放大因子的不同数量的ROI和贴片尺寸。根据Breakhis数据集的描述,四个放大因子的有效像素尺寸分别为:0.49μm(40×)、0.20μm(100×)、0.10μm(200×)和0.05μm(400×)。测试数据集准确度和验证数据集的分类结果分别见表六(患者级别)和表七(图像级别)。我们根据验证数据集的性能选择了超参数。由于验证数据集参与了选择超参数的培训过程,其性能通常优于测试数据集的性能(在培训阶段未看到测试数据集)。
可以看出,最佳性能是通过选择5个修补尺寸为112×112的ROI来实现的。当选择更多区域时,性能接近5个ROI,因为5个ROI中包含最重要的功能,并且SANET的任何附加补丁都是多余的。当选择较少的区域时,我们可以观察到分类精度显著下降。这是由于所选修补程序的信息丢失造成的。此外,可以看出标准偏差随着ROI的减少而增加,这意味着培训不稳定,并且在ROI较少的情况下没有得到良好的培训。另一个可以观察到的发现是,当将补丁大小设置为56×56时,需要大量的ROI来达到较高的分类精度。这是一个合理的结果,因为当接收场很小时,随着ROI数目的增加,可以获得更多的信息。补丁大小为56×56的7个ROI达到了最佳性能。
但是,其最佳性能仍然低于补丁大小为112×112和224×224获得的性能。这一结果是由于小的接收场导致软注意机制无法捕获其详细的补丁特征进行分类。此外,可以注意到,在ROI(3和5)较少的情况下,放大系数的增加会降低小片尺寸(例如,56×56)的分类精度。其原因是小的光斑尺寸只能从高放大系数图像中捕捉到微小的信息。ROI很小(例如,3个ROI),因为在这种情况下,较大的补丁可以接收更多信息。但是,当ROI数目增加时,有足够的信息进行分类,因此,224×224的补丁大小与112×112的补丁大小相比没有优势。也可以注意到,ROI的数目越大,分类精度的标准偏差越低。这是因为更多的训练样本可以为SANET提供更多病变部位的细节。因此,随着ROI数量的增加,SANET可以提供更稳定的结果(例如,当三个补丁大小都有9个ROI时,标准偏差可以低于1)。然而,当已经有足够的信息用于SANET时,更多的ROI也可能是冗余的。我们可以看到,当ROI数量大于3时,112×112的补丁比224×224的补丁性能稍好。主要原因是,当已经有足够的特征信息进行分类时,可以在较大的接收字段补丁中包含冗余和可能有噪声的特征。因此,我们发现通过将补丁大小设置为112×112,补丁数设置为5,模型能够达到最佳的分类性能。我们还可视化了辅助材料中选定的补片。
I. Convergence Analysis
然后,我们比较了我们的方法和四个不同基线之间的收敛性能。这四个基线模型是:(1)从方程5(w/o rt p)中删除奖励信号rt pf;(2)从方程5中删除奖励信号rt cft;(3)删除整个denet并仅使用sanet进行培训(w/o denet);(4)我们以前的poMDP方法[13](ISBI'19)。我们在训练数据集上计算每个时代结束时的交叉熵分类损失。患者和图像水平的不同光学放大的结果如图5所示。我们观察到,DENET的应用可以显著促进更快的收敛和更低的损失。当采用DENET时,大约需要75到100个周期才能实现收敛,且损失值较低。如果不应用DENET,则需要超过175个时段才能聚合,并导致相对较高的培训损失。这表明,DENET可以有效地选择最合适的训练数据进行分类,从而将冗余数据从训练中去除,从而实现快速收敛。奖励信号rt p反映了sanet的分类能力,也是实现早期收敛的关键。我们可以看到,当rt-pis不在奖励函数中时,分类损失将收敛到一个相对较高的值。这意味着DENET不能为SANET提供合适的训练样本,在梯度下降优化过程中,SANET将收敛到局部最小值。同样,奖励信号rt calso有助于网络融合。从实验结果可以看出,应用RT C比不应用RT C具有更好的收敛速度。原因是,RT-cis是一个信号,用于指示网络实现低损耗值的速度,因此它鼓励DENET选择最佳训练样本,加速训练过程。由此可见,奖励信号的设计是实现稳定训练的关键因素。当奖励功能中没有任何一个RT-POR-RT-CI时,与完整模型甚至唯一的SANET(不包括DENET)场景相比,培训损失波动增加。与我们之前的工作[13]相比,我们发现本文提出的方法更稳定,能够快速达到较低的损失值。这主要是由于本文开发的贴片选择机制,防止了在训练阶段对每一个修剪的贴片进行分类。此外,在我们之前的工作[13]中,补丁裁剪和分类任务是在同一个网络中完成的,这使得培训变得困难。在本文中,我们将DENET和SANET这两个任务进行了划分,并制定了一个训练策略,使两个网络在训练阶段相互协作。从而使整个框架更容易、更稳定地进行培训。
J. Threshold Analysis
接下来,我们评估阈值的影响?方程式6中的分类性能。验证数据集和测试数据集的分类结果如图6所示。的值?根据验证数据集的性能选择。可以看出,设置时达到最佳性能?=0.25。什么时候设置?分类精度下降到较高值。其原因在于,在培训的早期阶段很容易实现如此高的验证损失,这降低了SANET实现较低验证损失的动机。什么时候设置?对于较小的值,分类精度略有降低。原因是SANET很难实现如此低的验证损失,因此每次迭代之间的奖励收益相对较小。这使得denet用奖励反馈的微小变化来更新其选择策略变得模糊不清。
K. Computational Time Analysis
最后,在我们的实验中,该模型需要大约4个小时的时间在一个工作站上训练,该工作站有四个Nvidia GTX 1080 Ti GPU。相比之下,我们之前工作[13]中的模型需要大约8小时才能实现收敛。这意味着使用培训补丁选择机制,培训时间减少了50%。大多数冗余和不必要的补丁不用于训练SANET。在测试阶段,我们的模型还可以快速预测每个图像的类标签。虽然我们的方法有两个网络,但DENET的网络结构非常简单,有几个完全连接的层和一个LSTM。在测试阶段为每个图像推断一个类标签只需要不到6毫秒。如此快速的在线检测速度表明它可以应用于常规的临床工作流程。
L. Limitations
我们也知道目前的研究有一些局限性。首先,breakhis数据集中的图像是原始组织病理学数据的裁剪区域。尽管我们的方法不必像前面的工作那样在breakhis数据集中调整图像大小,但它还没有在整个幻灯片数据集中进行评估。其次,Breakhis数据集的大小相对较小,总共只有82名患者的数据,再加上测试数据集的大小较小,这可能意味着结果有偏差。第三,本文只评估了一个数据集。我们的方法能在多大程度上推广到其他数据集需要进一步研究。在今后的工作中,我们会尝试在越来越多的幻灯片数据集上评估我们的方法,以测试我们的方法的泛化能力。
V. CONCLUSION
本文介绍了一种新型的深度混合注意力网络,应用于乳腺癌组织病理图像分类。网络中的硬注意机制可以从breakhis数据集中的图像自动确定有用的区域,因此不必为网络调整图像大小以避免信息丢失。与以往基于pomdp的方法相比,我们的框架中的选择机制可以减少50%的培训时间。我们在公共数据集上评估了我们的方法,在四种不同的放大倍数下,该方法的精度大约达到98%。
REFERENCES
[1] Cancer Facts & Figures, Amer. Cancer Soc., New Y ork, NY , USA, 2008.
[2] H. D. Couture et al., “Image analysis with deep learning to predict breast
cancer grade, er status, histologic subtype, and intrinsic subtype,” NPJ
Breast Cancer, vol. 4, no. 1, p. 30, 2018.
[3] D. Bardou, K. Zhang, and S. M. Ahmad, “Classification of breast cancer
based on histology images using convolutional neural networks,” IEEE
Access, vol. 6, pp. 24680–24693, 2018.
[4] T. Qaiser and N. M. Rajpoot, “Learning where to see: A novel attention
model for automated immunohistochemical scoring,” IEEE Trans. Med.
Imag., vol. 38, no. 11, pp. 2620–2631, Nov. 2019.
[5] F. A. Spanhol, L. S. Oliveira, P. R. Cavalin, C. Petitjean, and L. Heutte,
“Deep features for breast cancer histopathological image classification,”
in Proc. IEEE Int. Conf. Syst., Man, Cybern. (SMC), Oct. 2017,
pp. 1868–1873.
[6] Z. Han, B. Wei, Y . Zheng, Y . Yin, K. Li, and S. Li, “Breast cancer
multi-classification from histopathological images with structured deep
learning model,” Sci. Rep., vol. 7, no. 1, p. 4172, 2017.
[7] M. Jannesari et al., “Breast cancer histopathological image classification:
A deep learning approach,” in Proc. IEEE Int. Conf. Bioinf. Biomed.
(BIBM), Dec. 2018, pp. 2405–2412.
[8] A. Rakhlin, A. Shvets, V . Iglovikov, and A. A. Kalinin, “Deep con-
volutional neural networks for breast cancer histology image analysis,”
in Proc. Int. Conf. Image Anal. Recognit. Cham, Switzerland: Springer,
2018, pp. 737–744.
[9] F. A. Spanhol, L. S. Oliveira, C. Petitjean, and L. Heutte, “Breast
cancer histopathological image classification using convolutional neural
networks,” in Proc. Int. Joint Conf. Neural Netw. (IJCNN), Jul. 2016,
pp. 2560–2567.
[10] L. Fang, C. Wang, S. Li, H. Rabbani, X. Chen, and Z. Liu, “Attention
to lesion: Lesion-aware convolutional neural network for retinal optical
coherence tomography image classification,” I E E E T r a n s . M e d . I m a g .,
vol. 38, no. 8, pp. 1959–1970, Aug. 2019.
[11] J. Zhang, Y . Xie, Y . Xia, and C. Shen, “Attention residual learning
for skin lesion classification,” IEEE Trans. Med. Imag., vol. 38, no. 9,
pp. 2092–2103, Sep. 2019.
[12] M. Tang, Z. Zhang, D. Cobzas, M. Jagersand, and J. L. Jaremko,
“Segmentation-by-detection: A cascade network for volumetric medical
image segmentation,” in Proc. IEEE 15th Int. Symp. Biomed. Imag.
(ISBI), Apr. 2018, pp. 1356–1359.
[13] B. Xu et al., “Look, investigate, and classify: A deep hybrid attention
method for breast cancer classification,” in Proc. IEEE 16th Int. Symp.
Biomed. Imag. (ISBI), Apr. 2019, pp. 914–918.
[14] F. A. Spanhol, L. S. Oliveira, C. Petitjean, and L. Heutte, “A dataset
for breast cancer histopathological image classification,” IEEE Trans.
Biomed. Eng., vol. 63, no. 7, pp. 1455–1462, Jul. 2016.
[15] F. Wang et al., “Residual attention network for image classification,”
in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017,
pp. 3156–3164.
[16] J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitation networks,” in
Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2018,
pp. 7132–7141.
[17] H. Zhang, Z. Kyaw, S.-F. Chang, and T.-S. Chua, “Visual translation
embedding network for visual relation detection,” in Proc. IEEE Conf.
Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 5532–5540.
[18] J. Lu, J. Yang, D. Batra, and D. Parikh, “Hierarchical question-image
co-attention for visual question answering,” in Proc. Adv. Neural Inf.
Process. Syst., 2016, pp. 289–297.
[19] V . Mnih, N. Heess, and A. Graves, “Recurrent models of visual
attention,” in Proc. Adv. Neural Inf. Process. Syst., 2014, pp. 2204–2212.
[20] L. Chen et al., “SCA-CNN: Spatial and channel-wise attention in
convolutional networks for image captioning,” in Proc. IEEE Conf.
Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 5659–5667.
[21] J. Schlemper et al., “Attention gated networks: Learning to lever-
age salient regions in medical images,” Med. Image Anal., vol. 53,
pp. 197–207, Apr. 2019.
[22] O. Oktay et al., “Attention U-Net: Learning where to look for the
pancreas,” 2018, arXiv: 1804.03999. [Online]. Available: https://arxiv.
org/abs/1804.03999
[23] Y . Zhang, B. Zhang, F. Coenen, J. Xiao, and W. Lu, “One-class Kernel
subspace ensemble for medical image classification,” EURASIP J. Adv.
Signal Process., vol. 2014, no. 1, p. 17, 2014.
[24] P . Wang, X. Hu, Y . Li, Q. Liu, and X. Zhu, “Automatic cell nuclei
segmentation and classification of breast cancer histopathology images,”
Signal Process., vol. 122, pp. 1–13, May 2016.
[25] C. Bahlmann, A. Patel, J. Johnson, J. Ni, A. Chekkoury, and P . Khurd,
“Automated detection of diagnostically relevant regions in H&E
stained digital pathology slides,” Proc. SPIE, vol. 8315, Feb. 2012,
Art. no. 831504.
[26] J. Liu, B. Xu, L. Shen, J. Garibaldi, and G. Qiu, “HEp-2 cell clas-
sification based on a deep autoencoding-classification convolutional
neural network,” in Proc. IEEE 14th Int. Symp. Biomed. Imag. (ISBI),
Apr. 2017, pp. 1019–1023.
[27] Y . Song, J. J. Zou, H. Chang, and W. Cai, “Adapting Fisher vectors
for histopathology image classification,” in Proc. IEEE 14th Int. Symp.
Biomed. Imag. (ISBI), Apr. 2017, pp. 600–603.
[28] Y . Song, H. Chang, H. Huang, and W. Cai, “Supervised intra-embedding
of Fisher vectors for histopathology image classification,” in Proc.
Int. Conf. Med. Image Comput. Comput.-Assist. Intervent. Cham,
Switzerland: Springer, 2017, pp. 99–106.
[29] V . Gupta and A. Bhavsar, “Breast cancer histopathological image
classification: Is magnification important?” in Proc. IEEE Conf. Comput.
Vis. Pattern Recognit. Workshops (CVPRW), Jul. 2017, pp. 769–776.
[30] V . Gupta and A. Bhavsar, “Sequential modeling of deep features for
breast cancer histopathological image classification,” in Proc. IEEE/CVF
Conf. Comput. Vis. Pattern Recognit. Workshops (CVPRW), Jun. 2018,
pp. 2335-1–2335-7.
[31] V . Gupta and A. Bhavsar, “Partially-independent framework for breast
cancer histopathological image classification,” in Proc. IEEE Conf.
Comput. Vis. Pattern Recognit. Workshops (CVPR), Jun. 2019, pp. 1–8.
[32] R. Jozefowicz, W. Zaremba, and I. Sutskever, “An empirical exploration
of recurrent network architectures,” in Proc. Int. Conf. Mach. Learn.,
2015, pp. 2342–2350.
[33] R. J. Williams, “Simple statistical gradient-following algorithms for
connectionist reinforcement learning,” Mach. Learn., vol. 8, nos. 3–4,
pp. 229–256, 1992.
[34] R. S. Sutton, D. A. McAllester, S. P . Singh, and Y . Mansour, “Policy gra-
dient methods for reinforcement learning with function approximation,”
in Proc. Adv. Neural Inf. Process. Syst., 2000, pp. 1057–1063.
[35] K. Simonyan and A. Zisserman, “Very deep convolutional networks
for large-scale image recognition,” 2014, arXiv: 1409.1556. [Online].
Available: https://org/arxiv.abs/1409.1556
[36] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for
image recognition,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit.
(CVPR), Aug. 2016, pp. 770–778.
[37] Y . Song et al., “Feature learning with component selective encoding
for histopathology image classification,” in Proc. IEEE 15th Int. Symp.
Biomed. Imag. (ISBI), Apr. 2018, pp. 257–260.
[38] J. Wu, Y . Yu, C. Huang, and K. Yu, “Deep multiple instance learning for
image classification and auto-annotation,” in Proc. IEEE Conf. Comput.
Vis. Pattern Recognit. (CVPR), Jun. 2015, pp. 3460–3469.
[39] K. Das, S. Conjeti, A. G. Roy, J. Chatterjee, and D. Sheet, “Multiple
instance learning of deep convolutional neural networks for breast
histopathology whole slide classification,” in Proc. IEEE 15th Int. Symp.
Biomed. Imag. (ISBI), Apr. 2018, pp. 578–581.
[40] M. Nawaz, A. A. Sewissy, and T. H. A. Soliman, “Multi-class breast
cancer classification using deep learning convolutional neural network,”
Int. J. Adv. Comput. Sci. Appl, vol. 9, no. 6, pp. 316–332, 2018.
[41] Y . Jiang, L. Chen, H. Zhang, and X. Xiao, “Breast cancer histopatho-
logical image classification using convolutional neural networks with
small SE-ResNet module,” PLoS ONE, vol. 14, no. 3, 2019,
Art. no. 0214587.