论文翻译--深度学习特征表示与医学图像分析的多重实例学习

DEEP LEARNING OF FEATURE REPRESENTATION WITH MULTIPLE INSTANCE LEARNING FOR MEDICAL IMAGE ANALYSIS

2014-北航

摘要

本文研究了用最少的手工标注和良好的医学图像特征表示来完成高级任务的有效性。在医学图像分析中，像细胞这样的物体具有显着的临床特征。以前开发的功能如SIFT和HARR无法全面表示这些对象。因此，特征表示尤为重要。在本文中，我们研究了通过深度学习（DNN）的特征表示的自动提取。而且，对象的详细注释往往是一个模棱两可的具有挑战性的任务。我们在分类训练中使用多实例学习（MIL）框架，具有深度学习的特点。几个有趣的结论可以从我们的工作中得出：（1）自动特征学习优于手动特征; （2）无监督方法可以实现接近完全监督的方法（93.56％）和（94.52％）; （3）粗标签的MIL表现（96.30％）超过了精品标签（95.40％）的监督表现。

1.介绍

在医学图像分析中，为分类和分割等高级任务设计一组特定的特征[1,2]是很常见的。同时，对医学图像的详细注释往往是一个模棱两可的具有挑战性的任务。本文以最少的手工注释和良好的特征表示来解决完成高级任务的效率和效率[4,5,6]。

关于特征表示的文献丰富。特征提取的主要方法是人工设计特征描述符[7,8]，完全监督特征学习[9]和无监督特征学习[10]。手动设计的特征描述符[7,11]，包括梯度算子和滤波器组，无法捕捉医学图像中常见的复杂变化。完全监督的特征学习[9]需要大量准确的注释数据。获得这样的注释数据是耗时的，劳动强度大，模糊不清。无监督的特征学习[12,13,14,15]是基于未标记的数据。它可以从真实数据的统计中学习内在和细微的特征。在本文中，我们研究这些方法在医学图像领域。我们使用SIFT [7]，LBP [8]和L * a * b颜色直方图作为手工特征。我们将深度学习神经网络中最后一个隐藏层的特征作为完全监督特征进行探索。我们采用由K-means聚类算法得到的质心的单层网络作为无监督特征[16]。实验结果表明，完全监督和无监督特征学习都优于手动特征。另外，我们比较了完全监督特征中最后一个隐含层的不同数量节点的影响。高维特征优于全监督特征学习中的低维特征。

在分类等高级任务中，弱监督的方法结合了完全监督和无监督的优点[3,17]。目标是从粗粒度标签中自动提取细粒度的信息。多实例学习是我们研究的弱监督方法的一种特殊形式。一个包包含很多实例。鉴于一系列的包标签，MIL使用包标签（粗粒）预测实例标签（细粒度）。在本文中，我们研究基于组织病理学图像的结肠癌分类。组织病理学图像被认为是一个袋子。一个图像被分割成许多补丁作为实例。如果袋子包含至少一个阳性实例（癌组织），则袋子被标记为阳性。如果包包含所有负面情况，则包被标记为否定。

本文组织如下。在第2节中，我们描述了特征学习和MIL框架的相关工作。在第3节中，我们提出了算法来研究特征学习和弱训练分类器的效率和有效性。在第4节中，我们报告了不同方法的实验结果。那么我们的结论在第5节中介绍。

2.相关工作

我们将相关工作大致分为三个部分：（1）医学影像领域的医学影像高层次任务;（2）特征学习和分类的深度学习;（3）多实例学习。

图1.算法的流程图，具有最少的手动注释和良好的特征表示。输入包括癌症图像和非癌症图像。所有图像都用于生成补丁。在特征学习处理中，图像/补丁被用于下采样感受野。特征学习是通过三种方法实现的，包括完全监督深度学习，单层网络的无监督学习和手动特征。下一步是提取每个补丁的功能。在分类器处理中，我们进行完全监督分类器（SVM）和弱监督分类器（MIL）。整体斑块级分类（癌症与非癌症）可以基于分类器的置信度获得。红色代表癌症斑块，而绿色代表非癌症斑块。

医学影像领域的分类和分割等高级任务是一个热门话题。由于图像的临床性质，以前的许多工作都集中在特征设计上。主要方法包括手动特征设计，监督特征学习和无监督特征学习。 Boucheron [18]和Chang [19]专注于手动特征设计，而Le [20]则专注于无监督特征学习。 Boucheron等[18]利用细胞核的分割结果作为特征来提高乳腺癌组织病理学图像的分类准确率。图像级分类中的特征维度为1035。 Chang等[19]在空间金字塔匹配的不同位置和尺度上提出了核水平的形态学特征，对肿瘤组织病理学图像进行分类。 Le等人[20]提出了一个具有非线性响应的双层网络，以自动学习组织病理学肿瘤图像的特征。在我们的工作中，我们比较了结肠组织病理学数据集上的三种主要方法。特征学习方法胜过手动特征操作符。

深度学习可以用于计算机视觉和语音等各个领域的分类和特征学习。深度学习作为分类器用于声学情感识别[21]和ImageNet中的对象类[22]。深度学习可以用于特征学习，包括监督[9]和无监督[20]。在我们的工作中，我们试图深入学习与MIL特征表示分类结肠组织病理学图像。

多实例学习是一个弱监督的学习框架。在训练中，MIL框架使用最少的手动注释。我们以前提出了使用袋级标记数据来预测实例级数据的框架来分类结肠组织病理学图像[3,17]。但是，我们使用MIL的手动功能来完成任务。在本文中，我们将深度学习的特征表示与MIL框架相结合，对结肠组织病理学图像进行分类。该算法将训练与最小的手动注释和良好的特征表示相结合。此外，我们的方法是一般的，可以应用于结肠组织病理学图像以外的MIL任务。

3.算法

在本节中，我们将描述在我们的实验中使用的算法。我们的任务是预测图像是否为阳性（癌症）或阴性（非癌症），并且如果癌症区域是阳性的，则概述癌症区域。我们将这个问题作为补丁级分类来制定。如果图像中有任何斑块被识别为阳性，则图像将被视为癌症图像。否则，所有补丁属于负面，图像被视为非癌症图像。我们的算法是一个流水线过程如下：（1）从正面（癌症）和负面（非癌症）的图像产生贴片，（2）使用图像/贴片产生良好的特征表示，（3）提取特征通过学习特征模型或手工特征算子，（4）通过使用受到完全监督或弱监督训练的分类器将补丁分类为正面或负面，以及（5）获得补丁级分类结果。图1是算法图。我们将详细介绍流水线过程中的一些关键步骤。

3.1 完全监督的特征学习框架

在这一节中，我们将描述完全监督的特征深度学习算法。我们提出了一个基于深度学习的系统，在编码器和解码器中有一组线性滤波器。 深度学习网络是从低级特征中获取高级特征的过程。低层节点表示低层特征，而高层节点表示高层特征。最后的隐藏层节点可以表示与下层特征相比的内在特征。在[9]中也可以找到类似的工作来应用于语音识别。我们使用深度学习的最后一个隐藏层作为完全监督的特征学习。不同的网络可以实现不同的性能类似于[23]，[24]，卷积和最大/平均池是图像分析中常见的网络层。

在本文中，我们尝试两个网络来评估最后隐藏层特征的效率和有效性。在网络中，一个卷积和池交替使用，没有完整的连接层（DNN2-F）; 在网络中最后两层是卷积和池（DNN1-F）之后的全连接。卷积和池产生的节点是巨大的。在我们的实验中，维数是16万。主成分分析（PCA）[25]用于减少DNN特征的尺寸。

3.2 无监督的特征学习框架

无监督的特征学习是一种没有昂贵的手工注释的方法。它可以从真实数据的统计中学习内在的和微妙的特征[16]。鉴于使用未标记数据的好处，我们探索了无监督的特征学习。在我们的实验中，我们使用K-means质心的单层网络作为无监督的特征学习。我们分别描述了特征学习和特征提取。

特征学习：

接受场（rf）被定义为来自图像（袋）的h * w补丁（实例）的d * d子图像。在我们的工作中步幅设置为1，因此一个贴片总共有（h-d + 1）*（w-d + 1）个接收场（rfs）。对于三通道（RGB）图像，rf可以描述为R3d2中的矢量。该算法的第一步是生成数据集的“质心”。质心也是R3d2中的一个矢量，质心是所有图像中所有斑块中“最常见的rfs”。我们从图像集中随机提取n个rfs，形成一组向量P，然后运行K-means算法生成k个质心C1，...，Ck。 K-means算法包含t个迭代。在每次迭代中，我们找到P中每个射频的欧几里得距离中最接近的质心，并将射频分配给质心。那么，对于每个质心Ci，我们取当前迭代中分配给该质心的所有rf，并将质心修改为一个新的C？我是所有这些rfs的意思。对t轮进行这样的迭代之后，质心集合收敛以描述P的最常见的rf。

特征提取：

质心用于从补丁中提取特征。假设一个补丁的维数为h * w，那么它有（h - d + 1）*（w - d + 1）rfs。对于一个rf p∈R3d2，我们可以将其映射到一个Rk向量f（p），其中

fi(p) = max{0, μ − zi}, 1 ≤ i ≤ k (1)

and zi = ||p−Ci||2, μ = (�i zi)/k.

Ci是迭代后的最后一个质心。因此，在Rk中存在（h-d + 1）*（w-d + 1）个向量，然后我们进行汇集过程：将网格分成l * 1个相等的部分（在我们的工作中l = 2）在每个部分中的矢量以获得Rk中的l * 1个矢量，其可以集中到al * 1 * k维矢量中。这是输入补丁的特征向量。

请注意，我们在K均值算法和特征提取过程中不使用任何标签信息。

3.3 多实例学习

详细的手册注释非常耗时且本质上不明确。另一种方法是使用全局注释学习本地概念，这是多实例学习（MIL）的主要思想。 MIL是一个弱监督的学习框架。训练集包含由未标记实例组成的标签袋，任务是预测未看到的袋子和实例的标签。本文中，一个袋子是一个大尺寸的图像，一个实例是一个可区分的补丁。当且仅当包中至少有一个正面实例，即图像的某些部分，但是可能不是整个图像是癌症组织时，该包被标记为正。因此，我们可以制定一个二元MIL模型，优化袋分类的损失函数，而袋分类器是实例分类器的softmax。具体而言，Xi = {xi1，xi2，...。。。，xim}是训练集中的第i个包，m是第i个包中的实例个数，{xi1，xi2，...。。。，xim}是这个包的实例。 yi∈{-1，+1}是标签，-1表示负包，+1表示正包。 H（X）∈X→[0,1]和h（x）∈x→[0,1]是baglevel分类器和实例级分类器，给出了bag和instances的正概率。对于袋Xi，H（Xi）= softmax（h（xi1），h（xi2），...，h（xim））。在我们的工作中，softmax函数是广义均值（GM）。损失函数是：

其中1（·）是指示函数。

使用梯度下降算法，我们可以迭代训练弱分类器h'（x）使用权重：

并通过h（x）←h（x）+αh'（x）更新h（x），其中α是通过线搜索获得的系数，以使损失函数最小化。经过足够的迭代使损失函数收敛，我们生成一个有效的分类器。这个算法被称为MIL-Boost。

图2.来自完全监督的数据集的几个例子。第一排：阳性（癌症）; 底部一排：阴性（非癌症）。

4.实验

4.1数据集

高分辨率组织病理学图像被用来构建我们的数据集。所有图像均从132例患者的组织病理学图像中选取。由于单个机器的计算能力，每个图像被设置为10000×10000像素。这是MIL中提到的一个包。我们采样了200×200像素的块，而重叠步长为100像素，因此我们在图像中获得了9801个块，每个块都是一个实例。详细的数据集如下（见表1）：

完全监督的数据集：

首先我们选择了30个癌症的图像，我们手动分割细胞。完全封闭在标记的癌症区域中的9000个斑块被用作阳性实例。从30个非癌症图像中，我们随机抽取9000个斑块作为阴性实例。从上述数据中随机选取包含4500个正实例和4500个负实例的训练集和测试集。训练集不仅用于训练像SVM和DNN这样的全监督学习算法，而且也是弱监督学习的评估数据集。图2显示了几个补丁的例子。

弱监督的数据集：

30个阳性图像没有手动分割和83个阴性图像被用作袋子集，每个图像包含9801个补丁，因此我们有113个标记袋子和超过100万个未标记的实例来构建MIL模型。

注释：

完全监督（癌症区域）和弱监督（袋标签）的注释均由两位病理学家独立标注。当有分歧时，第三位高级病理学家会与他们讨论以确定事实真相。

4.2 设置

我们研究了所有200x200补丁的四种不同类型的功能，完成了完全监督学习的分类和弱监督学习。在下面的部分中，我们使用[26]中提到的符号来描述我们的DNN的体系结构。

特征提取：使用以下方法

手动特征（MF）：选择通用对象分类特征，包括SIFT，LBP和L * a * b颜色直方图。特征维数为188。

K-means：为了实现对特征空间的良好表示，我们从Bags Set中随机抽取1000万个8×8的感受域，然后将它们聚类到1600个质心，每个实例获得4×1600 = 6400的尺寸特征。

DNN1-F：我们培训了网络3x200x200-32C5-MP2-32C5-MP2-64C5-MP2-1000N-2N在训练集上，并在每个补丁上应用优化网络来获得特征。最后的完整连接层用于提取维度为1000的特征。

DNN2-F：与DNN1-F类似，但使用不同的网络3x200x200-32C5-MP2-32C5-MP2-64C5-MP2-2N。最后利用conv3层提取特征，特征维数为160,000。由于维数较大，采用PCA将DNN特征的维数压缩到1000维，并进行了简化特征的实验。

DNN1-C：与DNN1-F相同的功能。

DNN2-C：与DNN2-F相同的功能。

完全监督学习：使用训练集训练具有默认参数的线性SVM。分类器用于MF，K-means，DNN1-F和DNN2-F。我们还使用相同的训练集提出了上述两个神经网络（DNN1-C和DNN2-C）的DNN分类结果。

弱监督学习：使用MIL-Boost算法进行弱监督学习，softmax函数为r = 5的广义均值（GM），弱分类器为Decision Stump和Decision Interval，我们运行5000次迭代或直到损失函数收敛。用于训练的模型被用于训练集，以找到最佳的测试阈值。

总共有1,107,513个补丁，这些特征的尺寸和数据大小如表2所示.K-means特征的存储远远大于DNN1-F特征，因为后者具有较小的尺寸并且比前者更稀疏。

4.3 结果

表3给出了上述所有实验的测试集的精度。DNN2-F从高维特征的详细表示中受益，并显示出最好的准确性。对K-means特征的弱监督学习是最有意思的部分，特征提取和训练阶段都不需要实例标签，但是它比手动特征执行得更好。随着更多的未标记数据，这种方法可能会导致分类性能接近完全监督的培训方法。

在全监督分类中，DNNFs的性能与DNN-Cs类似。其中，K-means特征简单，参数少，准确性接近DNN1-F。它支持无监督的特征提取。

4.4 比较不同的特征

为了在合理的时间内完成实验，使用消息传递接口（MPI）实现特征提取和模型学习，并在Windows高性能计算（HPC）集群上进行。我们使用了多达128个计算节点，每个节点有8个处理器和16 GB的RAM。对于DNN训练和特征提取，我们使用了4个服务器，每个服务器有24个处理器，72 GB RAM和2个NVIDIA Tesla M2090 GPU卡。四个功能集的每个阶段的时间成本。

四个特征集的每个阶段的时间成本可以在表4中看到。K-means特征的预处理是聚类，DNN特征的预处理是训练神经网络。手动特征和K-means特征的特征提取是分布式的，其值是一个计算节点处理一个10000×10000图像所需的时间。 MIL-Boost的框架很好地并行化。

在这些特征提取方法中，手动特征是最快但最不准确的，并且必须针对不同数据集精心设计。 K-means特征在提取阶段是完全无监督的，并以一种稳健而有效的方式表示数据集。然而，高计算复杂度和高特征维度不适合大规模数据。 DNN功能是最准确的，但必须使用完全标记的数据进行训练。

5. 结论

本文提出了一种最小化手工标注和良好特征表示的算法来完成高级任务，如医学图像分析中的分类和分割。我们比较了四个关于结肠癌组织病理学图像。实验结果表明，特征学习优于人工特征算子。无监督特征学习（93.56％）的性能接近完全监督分类的全监督特征学习（94.52％）。

而且，MIL框架在分类上是有效和高效的。在有监督的深度学习特征中，粗标签的MIL性能（96.30％）超过了精标签的监督性能（95.40％）。

由于在无监督特征学习中有限量的无标签数据和单层网络所产生的特征，无监督特征的性能略差于监督。为了今后的工作，我们将进行更多的未标记数据和多层网络在无监督的特征学习。此外，我们将探讨使用自动编码的DNN而不是K-means来学习没有完全标记的数据的特征表示。

2018-01-02