语义分割无监督后处理：将高置信度像素标签传播到低置信度区域

视频分割后处理从两个方面入手，一个是从视频的历史帧掩膜，一个是从图像分割的角度，例如这篇论文

Probabilistic Semantic Segmentation Refinement by Monte Carlo Region Growing

具有细粒度像素级精度的语义分割是各种计算机视觉应用的基本组成部分。然而，尽管卷积神经网络的结构最近有了很大的改进，但现代最先进的方法所提供的分割仍然显示出有限的边界依从性。我们提出了一种完全无监督的后处理算法，利用蒙特卡罗抽样和像素相似度将高置信度像素标签传播到低置信度分类区域。我们的算法，我们称之为概率区域生长细化（PRGR），是基于一个严格的数学基础，其中集群被建模为多元正态分布的像素集。pRGR利用贝叶斯估计和方差减少技术的概念，在不同的接收场大小下进行多次求精迭代，同时更新聚类统计以适应局部图像特征。使用多个现代语义分割网络和基准数据集进行的实验证明了我们的方法在不同粗糙度下细化分割预测的有效性，以及在蒙特卡罗迭代中获得的方差估计作为与分割精度高度相关的不确定性度量的适用性。

https://arxiv.org/pdf/2005.05856.pdf

SUBMITTED TO IEEE TRANSACTIONS ON IMAGE PROCESSING (UNDER REVIEW), APR 2020

作者：Marquette University

将要开源，实时性不确定，计算量不确定，需要评估和测试

作者2018年的另一篇论文似乎是这篇论文的前身（2018.2）

https://arxiv.org/pdf/1802.07789.pdf

作者还有个工作是自动标注的：

https://arxiv.org/pdf/1902.06806.pdf

http://www.coviss.org/%20%20freelabel/

摘要具有细粒度像素级精度的语义分割是各种计算机视觉应用的基本组成部分。然而，尽管卷积神经网络的结构最近有了很大的改进，但现代最先进的方法所提供的分割仍然显示出有限的边界依从性。我们提出了一种完全无监督的后处理算法，利用蒙特卡罗抽样和像素相似度将高置信度像素标签传播到低置信度分类区域。我们的算法，我们称之为概率区域生长细化（PRGR），是基于一个严格的数学基础，其中集群被建模为多元正态分布的像素集。pRGR利用贝叶斯估计和方差减少技术的概念，在不同的接收场大小下进行多次求精迭代，同时更新聚类统计以适应局部图像特征。使用多个现代语义分割网络作品和基准数据集的实验证明了我们的方法在不同粗糙度下细化分割预测的有效性，以及在蒙特卡罗迭代中获得的方差估计作为与分割精度高度相关的不确定性度量的适用性。索引项分割；像素分类；区域生长；随机方法；不确定性与概率推理。在计算机视觉的许多应用中，像素级的高精度图像分割是一个关键要求。在动作和活动识别中，人-人和人-物交互的相关视觉线索包括主体和客体之间的接触、特定的身体轮廓和零件位置[1]-[3]。自动化任务通常需要对物体或仪器进行操作，其中物体姿态和形态估计的质量直接影响成功率[4]，[5]。农业领域是一个例子[6]-[8]，其中图像分割作为感知模块的一部分被开发出来，目标是在园艺场景中授粉、果园管理和收获。广泛的图像分割应用包括图像编辑、自动驾驶车辆[9]、网上购物的虚拟服装试穿[10]和医学成像。医学分段十项全能挑战[11]就是一个例子，器官和结构（如肿瘤）的精确定位对于最终指导医疗干预至关重要。基于卷积神经网络（CNN）的深度学习模型极大地提高了图像理解的技术水平。然而，传统的基于CNN的分割模型受到了用于学习层次特征的典型下采样的限制。在这个过程中，像素级的细节会丢失，从而导致分割遮罩很难与对象边界结合。为了减轻这些限制，现代图像分割模型采用了诸如阿托罗斯卷积[12]、具有跳跃连接的编码器-解码器体系结构[13]–[15]、金字塔缩放[16]等策略。与传统的CNN结构相比，这些策略已经取得了很大的改进，但是它们产生的分割仍然没有很好地与对象的边界对齐。后处理方法，如条件随机场（crf）[16]，[17]已经在分割细化方面取得了成功，但它们的性能取决于对每个特定数据集和所使用的预测模块的参数进行适当优化。

在[18]中，我们引入了区域增长细化（Region Growing refinence，RGR）算法，这是一种无监督且易于推广的后处理模块，它通过基于外观的区域增长来细化语义分割模板。在Monte Carlo框架中，初始像素作为高质量种子从高置信度标记的区域中进行采样，并成长为用于分割细化的簇。在此背景下，我们提出了概率区域增长求精（pRGR）算法，这是RGR的一个扩展，它提供了以下贡献：

一个坚实的数学基础，利用概率框架来指导算法的所有步骤；

•结合来自贝叶斯估计的技术，许多先前以临时方式确定的参数现在使用贝叶斯共轭先验初始化，并随着像素到簇的分配而更新。此外，在蒙特卡罗精化迭代中利用方差减少技术来优化采样步骤；

•通过一种新的参数化，允许对不同的感受野大小进行em 计算，pRGR通过恢复更精细的边界细节和减弱假阳性像素标签的影响，进一步提高了分割细化性能；

•我们通过实验证明了pRGR在各种场景中的适用性，包括最先进的模型，如DeepLabV3+[19]。这些实验也表明DenseCRF[17]和pRGR的结合是一种有效的分割细化策略；

我们观察到，pRGR的Monte Carlo估计的方差可以作为一种不确定性估计机制，实验证明了它与最终分割精度值之间的高相关关系；一旦发布，代码将在covis上提供。组织/代码。我们报告了使用不同CNN、数据集和基线的实验。为了便于与CRF和RGR基线进行比较，我们首先报告了DeepLab[12]和DeepLabV2[16]为PASCAL VOC 2012[20]验证集提供的细分预测改进实验。然后，我们报告了在PASCAL val集和DAVIS数据集的选定序列上使用最先进的DeepLabV3+[19]分割模型进行的实验。与PASCAL数据集相比，DAVIS数据集包含的注释更细粒度，边界更紧密。论文的结构如下。在第二节中，我们概述了相关的工作，包括现代语义分割模型、分割细化策略和使用相似概率概念的聚类算法。第三节对pRGR模型的完整公式进行了说明，第四节详细介绍了实现pRGR的算法。在第五节中，我们报告了将pRGR与RGR、CRF和CRF+pRGR的组合进行比较以改进由多个CNN模型提供的预测的实验。最后，在第六节中，我们强调了这项工作的主要收获，无论是在取得的成果方面，还是在未来的方向，pRGR可以开发。

二。基于deep-CNNs的相关工作模型在图像分类和目标检测等计算机视觉任务中都取得了显著的进展。然而，对于基于CNN的系统来说，需要像素级图像标记的任务尤其具有挑战性。虽然对于评估不同级别的上下文并因此学习分层特征至关重要，但池操作和跨行操作的组合会导致下采样效果，从而影响像素密集分类任务中cnn的性能。这一点通过由诸如Eigen&Fergus[22]和早期的完全卷积网络（FCNs）[13]所引入的模型所产生的分割预测得到了清楚的证明，这些模型的结构基本上由图像分类CNN模型组成，其完全连接的层被进一步卷积所代替。这些模型产生了边界粘连有限的粗分割掩模，这是一个开放性问题，推动了该领域的许多进展。目前许多语义分割方法都侧重于开发更好的上采样策略，以提高分割精度。Noh等人。[23]专注于学习反褶积网络，而诸如U-Net[14]和SegNet[24]的工作则专注于编码器-解码器体系结构，其中解码器路径包括跳过连接以从编码器层传输信息以更好地指导上采样。为了获得更精细的分段而研究的另一个方向集中在减少通过下采样丢失的细节数量上。为此，DeepLab模型家族[12]、[16]、[19]利用了扩张卷积（或阿托拉斯卷积）的思想，其中卷积滤波器用零填充，作为增加接收场的另一种方法。此外，像PSPNet[25]这样的作品重新审视了早期的策略[26]，这些策略侧重于在多个尺度上评估图像，以便更好地结合不同层次的场景上下文。在这种情况下，DeepLabV2[16]采用了atrus空间金字塔池（ASPP），其中atros卷积与空间金字塔池的概念相结合[27]。最近，最新的DeepLabV3+模型[19]被引入，结合了调整后的ASPP策略以利用图像级特征和解码器模块来优化沿边界的分割。

除了对CNN结构的调整外，一些研究集中在研究利用低层图像特征来帮助基于CNN的模型完成图像分割任务的技术。Girschick等人利用了选择性搜索的概念[28]。[29]构思用于目标检测的RCNN族的第一个模型。基于相似度合并小区域集合[30]，生成区域建议，然后使用深度学习模型对其进行评估。类似的想法利用超级像素[31]作为预处理步骤，其中像素基于低级属性（例如颜色相似性）分组，每个组使用手工设计的层次特征[32]或CNNs[33]，[34]进行评估。同样，局部外观技术，如超混合和条件随机场（crf）也被用于深CNN模型产生的分割的后处理。DeepLab论文[12]提出将其新颖的体系结构与[17]中的DenseCRF模型相结合，以改进分割掩模，特别是沿边界的分割掩模。与传统的全连接CRFs实现相比，DenseCRF通过一种近似推理算法提高了计算效率，该算法将成对势建模为高斯核的组合。然而，使用DenseCRF模型对分割掩模进行后处理细化需要通过网格搜索优化超参数，每当CNN模型和/或数据集发生变化时，都必须执行此过程。

在[18]中，我们引入了区域增长细化（RGR）算法，该算法通过将高置信度标签传播到不确定像素分类区域来细化分割预测。在不同的数据集和CNN模型组合上的实验表明：一）RGR对分割细化的有效性；二）它的高泛化能力，不需要对数据集或模型进行特定的调整。除了分割细化[7]，RGR的实际相关性也在FreeLabel[35]中得到了说明，FreeLabel[35]是一个开源的注释工具，可以从用户提供的手绘轨迹中获得高质量的分割遮罩。虽然在某些方面类似于SLIC[36]等超级混合算法，但RGR基于从高置信区域随机采样的种子初始化允许具有灵活大小的簇，并强制从高置信区域导出高不确定区域的分类。传统的超像素算法也有一些局限性，如对局部特征的调整缺乏自适应性，以及对参数初始化错误的鲁棒性差。引入了利用贝叶斯估计的模型来克服超级像素算法的这些局限性，其策略范围从像素相关高斯混合模型（GMMs）[37]、[38]到非参数混合模型[39]。在这种方法中，将先前固定的归一化超参数替换为贝叶斯先验，当像素被分配给簇时，贝叶斯先验与其他簇统计信息一起以协方差的形式更新。III.提出的方法在本节中，我们首先简要回顾构成RGR算法的主要操作。然后，我们描述了构成概率区域增长求精（pRGR）方法的步骤序列和相应的数学公式。区域增长细化（RGR）：基于语义分割检测器（如现代CNN）提供的像素分类分数，RGR识别图像中的三个区域：高置信度背景、高置信度对象和不确定性区域。这是通过使用极值对记分图进行阈值化来实现的，即对于高置信度前景接近1.0，对于高置信度背景识别接近0.0。然后基于像素颜色和位置相似性进行区域生长，从从高置信度区域采样的初始种子开始。RGR使用Monte Carlo方法多次执行此过程：为每个生长迭代随机采样不同的种子集，以便将最终采样假阳性像素作为种子的总体影响降到最低。一旦簇形成，RGR在每个簇内进行基于像素的多数投票，以获得对的精确估计

每个区域的分段分数。最后，对每个Monte Carlo迭代所得的细化分数进行平均，以获得最终的细化分割预测。与RGR算法相似，pRGR算法是一种通用的无监督后处理模块，用于细化分割边界，可与任何CNN或类似语义分割模型的输出耦合。在共享相似概念的同时，pRGR通过使用概率公式来推进RGR，在该公式中，算法的所有步骤都是使用数学相干框架导出的。此外，在参数的初始化和更新过程中，采用了方差归约和贝叶斯估计的概念。

组成pRGR的主要操作如图1所示。在较高层次上，RGR和pRGR所执行的步骤可以概括为：1）识别高置信分类区域；2）从高置信区域进行蒙特卡罗种子采样；3）种子区域生长成簇；4）簇内像素得分平均；5）通过多次蒙特卡罗迭代进行平均。在多类分割的情况下，RGR和pRGR都在与每个类相关联的记分图上执行这些步骤，并且通过计算跨类的最大似然来定义最终分类。在本节的其余部分中，我们将证明这些操作的合理性，并导出指导构成我们的方法的步骤的一组方程。来自高置信区域的概率种子抽样

我们的求精算法的输入被表示为观察图像I∈Rw×h和相应的置信映射C∈Rw×h×C。这里，w×h是输入图像I的维数，C是集合C中每个类的分数映射，由任何现代分割CNN生成。为了简单起见，我们首先介绍二进制情况下的方法，其中| C |=1，因为在多类场景中，所有步骤都是在每个类scoremap上独立执行的。

让

其中Fb（·）和Ff（·）分别是tb和tf分布对应的累积密度函数（CDFs）。如[18]所述，种子之间间隔γ的取样确保了它们在整个不确定区域生长的路径的可用性。也就是说，在高置信区域内的γ×γ点之间均匀地采样种子，使得，给定阈值tf、tb和种子间距γ，在具有置信分数ci的像素处采样种子si的概率是

而在RGR中，所有样本生长迭代的种子间距γ是固定的，对于pRGR，我们采用一种策略，其中γ以分层方式从均匀分布的γ∼U（γl，γh）中采样，其中γl和γh是最小和最大间距值。如（2）所示，参数γ直接影响待采样种子的数量，与通过种子生长形成的簇的预期大小成反比。因此，使用分层方法采样γ允许在多个接收野大小下模拟细化过程，这是许多现代分割体系结构中使用的常见做法[19]，[25]。

其中，第二个方程基于种子仅从高置信区域采样的事实，即P（si | IH，γ）=0。设m=1，…，ns表示Monte Carlo生长迭代的指数，使得s（m）i表示迭代m中的第i种子，并设γ（m）为对应的种子间距。基于（3）和（4），种子样本按分布

阈值分布：基于深度学习模型的语义分割方法通常包括三个主要步骤。首先，CNN计算每个类的每个像素的激活的无限分数图。通过对每个像素的所有类应用softmax函数，这些记分图随后被规范化为范围[0，1]。最后，通过对规范化记分图的arg max操作，将类标签分配给每个像素。因此，没有单一的固定阈值应用于分类的类记分图。因此，为了估计（3）中所要求的CDFs F b，F F，我们使用两个非参数分布F●b和F●F来近似它们。如图2所示，从arg max步骤的输出中，我们识别标记为前景的像素pf∈F和标记为背景的像素pb∈B。对于如图2所示的多个类别的场景，前景对应于标记为被评估类别的一部分的像素（例如人），而背景对应于所有剩余类别（例如非人）的并集。然后，我们分别估计由CNN计算的前景F和背景b内预测像素的分数cf和cb的CDFs F∮F≈F（cf）和F∮b≈F（cb）。为此，我们使用

核函数，在每个区域的标准化分数[0，1]范围内的等距点上计算。

相似性度量

一旦拥有了高置信度的种子，pRGR就开始基于空间和颜色相似性将这些初始像素生长成簇。让每个像素pj由5D特征向量zj=[xj，cj]T来描述，其中xj=[xj，yj]T是其2D空间特征，cj=[lj，aj，bj]T是其3D颜色（CIELab）特征。类似地，让xk，ck表示簇Ψk的质心特征。然后，根据[18]中的公式（基于SLIC超混合算法[36]），pj和簇Ψk之间的相似性由

方程（6）可以推广到我们假设对于每个分区π，每个具有特征zj的像素pj最好由一个且只有一个簇Ψk来描述，该簇Ψk正态分布具有平均（质心）zk和协方差∑k1。因此，zj的分布由给出，其中d（zj，zk）=（zj zk）T∑k1（zj zk）和α=ln쏬2π5/2 |∑k | 1/2 |。因此，对于zj∼N（zk，∑k1），（9）中的距离等于点zj的对数似然（没有对应于归一化因子的常数偏移）。因此，最小距离d（pj，Ψk）等于最大距离l（zj | zk）。

像素pj被分配给簇Ψi的概率由给出，其中∏zk=E[z |Ψk]是簇Ψk内z的期望值，也就是说，像素pj被分配给簇Ψi的概率由zj和质心∏zi之间的距离是所有簇质心∏zk之间的最小距离的概率给出。由于d（zj，∏z i）服从n自由度的卡方分布，其中n是z的维数，因此聚类分配概率是样本d（zj，∏zi）∼x2n是i.i.d.样本d（zj，∏zk）∼x2n，∀Ψk∈π中最小的概率。

CDF（·）分布的最小过η样本的分布由给出，其中Γ（·）是伽玛函数，γ（·，·）是下不完全伽玛函数。对于我们的方案F（1）（x），方程（12）变为x=d（zj，'-zi）和n=5，因此对应于另一个簇比Ψi更接近像素pj的概率。因此，这就是指导像素簇为区域生长过程分配的方程。像素概率估计

给出了群π（m）=nΨ（m）1，Ψ（m）2。，Ψ（m）| S | o在算法的第m次迭代中生成，每个簇Ψ（m）i内的期望类似然c |（m）i值被估计为与其像素pj∈Ψ（m）k相关联的分数cj的平均值，根据像素簇分配的概率P（pj∈Ψ（m）i | S（m））加权。也就是说，

那么，c′i（m）是所有像素pj∈Ψ（m）i的精炼类概率，即在没有种子与给定像素足够相似的情况下，将该像素分配给任何簇的概率

将是低的，增长过程将结束，没有任何分配这个像素。我们将这些元素称为孤立像素。在像素P o保持孤立的迭代中，即po∈/Ψ（m）i，∀Ψi∈π（m），我们保持其最初的预测分数co为c（m）o=P（po∈F |π（m））。设∏={π（1），…，π（ns）}表示多重蒙特卡罗迭代生成的所有分区集。通过足够的迭代，我们可以逼近分布，其中δπ（π）是狄拉克三角函数，如果π∈π等于1，否则为零。在分割集∏上的边缘化，我们有，使得每个像素P j的最终精细类概率由c∮j=P（pj∈F）给出。方差估计：

除了在（19）中计算出的平均值外，还可以为每个像素计算由多次蒙特卡罗迭代提供的估计的方差。与计算平均c∮j类似，分区之间的方差σ∮2j可以计算为，如第五节所示，方差可以用作与分段精度高度相关的不确定性度量。在实际应用中，我们观察到对于显著的粗预测，有利于将整个pRGR算法运行一次以上，以进一步提高分割质量。让r表示一组运行r={1，…，| r |}中每个完整运行的序号索引。然后，包括（19）中的索引r，每一次运行提供像素P j的估计c∏j（r）=P（pj∈F∏（r））。为了得到最终的估计P（pj∈F），我们利用逆方差加权来结合每次运行提供的估计。即集群统计的初始化与更新

如上所述，我们假设簇是按N（zk，∑k1）正态分布的，这意味着一个正态分布的似然函数。此外，为了允许类似于[38]、[39]的灵活的簇来适应局部图像和预测特性，我们分别更新（8）中的空间和颜色协方差项，即。，

式中，σx，σy是沿水平和垂直坐标的方差，σl

是L色通道的方差，σa，σb分别是a和b通道的方差。

初始化：

为了保证正态分布的后验概率，便于更新过程，我们使用共轭先验分布初始化每个簇的平均zk和协方差∑k[40]，[41]。由于空间和颜色的方差假设是独立的，我们可以定义形式的正态逆卡方（NI-x2）先验分布，其中μ和σ2是（zk，σk）的五个维度的均值和方差，为了简单起见，下标被删除。正态分布的平均值μ0根据对应种子的位置和颜色进行初始化，而k 0固定为1，因为种子值值得方差σ2的一次观测。

空间方差：初始化与方差相关的逆卡方参数（vo，σ20）更为复杂。在正态分布的簇假设下，簇的期望大小与其空间方差的期望值成正比。由于种子间距以采样参数γ的形式已知，我们期望平均簇大小与γ×γ成正比。因此，空间方差可以初始化为

式中，λ是经验定义的比例常数。为了使聚类在没有邻近种子的情况下变得更大并达到更低的置信区域，基于对来自PASCAL数据集的350个随机采样图像的子集执行的网格搜索，我们在所有实验中使用了λ=27的固定值，不管CNN模型用于生成分割掩码还是正在考虑的数据集。如[40]所述，v0参数给出了相应先验知识值的观测值。基于这一直觉，我们再次利用平均期望簇大小与γ×γ成正比的事实，使得v0 ~×γ2。此外，我们注意到样本方差估计的可靠性与相应初始种子的质量成正比，因为它定义了初始平均值。因此，在质量较低的种子的情况下，对于随后的样本方差估计，必须给予先验更多的权重。结合这两个特征，其中P（sk∈IH）对应于从（4）得到的种子在高置信域内的概率。颜色差异：确定一个期望的聚类颜色差异并不是那么简单。因此，我们首先检查了使用传统的形成的簇的颜色统计

PASCAL数据集的同一子集上的超级像素算法（SLIC[36]）。具有不同数量的超级混合料和压实度值的多次运行表明，约σ2l=850和σ2a=σ2b=260的方差覆盖了超级混合料中99%的样品。基于这些观测值，我们进行了网格搜索，得到了在所有实验中使用的最优初始化值σ20，l=1000和σ20，a=σ20，b=300。

由于颜色相似性的分布可以从一幅图像到另一幅图像发生变化，我们采用了一种对偶抽样方差减少策略[42]，其中初始颜色方差值乘以1±ρ。在[0.1:0.1:0.9]上进行网格搜索后，使用上述相同的PASCAL子集，为所有实验定义了一个p=0.6的值。也就是说，我们初始化σ20，l=1000×[1±ρ]和σ20，a=σ20，b=300×[1±ρ]。使用与（25）中给出的用于空间方差的方法相同的方法计算颜色方差的等效样本大小v0，{lab}。最后，如第。四、在区域生长过程中，所有的簇都是从中心向外生长的，因为分配的第一个像素是对应的种子邻域，随后的暂定像素分配是与刚刚分配的像素相邻的。就样本统计而言，这意味着初始空间样本方差严重偏向于较小的值，因为指定的第一个像素是最接近相应簇的质心的像素。为了补偿这种偏差，我们将先验方差知识的v0权与一个常数相乘，即对于所有实验，我们设置v0=α[γ/P（sk∈IH）]2。我们使用α=5表示空间方差，由于颜色统计的这种偏差要低得多，因此我们经验地将α=0.1设置为颜色方差。更新：如[40]、[43]中所述，根据n i∏2先验和相应的正态似然的组合，给出相应的后验参数，其中x∏表示样本均值，n表示样本总数，对应于簇大小，即n=|Ψk |。如果样本量不够大，估计样本方差时可能会出现偏差，从而导致大小不正确的聚类。因此，我们应用了一种更新策略，其中样本方差估计仅在达到期望的簇大小后计算，即|Ψk |≥[γ/P（sk∈IH）]2。

后部：

为了计算像素到簇的距离和相应的分配概率，用具有vn自由度的t-student分布给出后验预测分布。因为对于绝大多数迭代v0≥30，该后验可以根据N（μN，σN）近似为正态分布。

四、算法实现

我们通过调用Alg的主函数来实现pRGR。1，总结了将像素分配给簇的区域增长过程。首先，主脚本执行阈值分布的非参数估计和随后的种子采样概率计算。然后，该脚本对种子的初始集进行采样并调用Alg。1个用于区域生长。从图像特征Z和对应的种子集S作为输入，Alg。1返回数组L，其中每个像素通过索引映射到其对应的簇。

设元素ej=[j，k，Pjk]表示像素pj到簇Ψk的暂定赋值，相应的概率Pjk=P（pj∈Ψk | S）（15）。对于作为种子采样的像素，创建的元素Pjk设置为1.0。受SNIC[44]实现的启发，这些临时分配元素被推送到优先级队列Q1中，根据分配概率Pjk按降序排序。分配是通过从Q1中弹出元素并根据相应的概率进行采样来实现的。从对应的种子开始，当像素pj被有效地分配给簇Ψk时，对其所有pn 8-连通邻域进行评估：如果它们还没有被聚类，则元素en=[n，k，Pnk]被推到Q1中，作为这些像素对它们现在相邻的簇Ψk的暂定分配。

在增长过程中，通过这样的8连接性强制，我们确保一个像素最多被访问（采样）8次。但是，由于这只是一个上限，我们选择一个实现，确保每个像素在被视为孤立像素之前至少被访问8次。这是通过使用回收队列Q2的回收过程实现的。当从Q1弹出一个元素但没有发生赋值时，如果对应像素的采样次数小于8次，则将该元素推入回收队列Q2。每当Q1被清空时，Q2中的所有元素都会根据最新的集群统计数据进行更新，并重新推送到Q1中进行处理。利用这个策略，我们确保在（15）中使用固定的η=8。因此，一旦所有像素被分配到一个簇或访问最多8次，算法就会收敛。一旦拥有Alg返回的像素到簇的对应映射。1，主函数继续根据（16-21）计算像素概率估计。高斯滤波：由于我们必须使用有限数量的蒙特卡罗迭代来近似后验分布，因此具有高不确定性的像素可能需要额外的细化步骤来产生准确的结果。为了避免执行会影响相对较少像素的大量迭代，我们在使用（19）获得的精制分数图的基础上，使用3×3卷积和高斯核来平滑虚假的像素激活。

五、实验

我们评估了pRGR的性能：i）构成PASCAL VOC 2012数据集的val集的1449个图像[20]；ii）DAVIS数据集的选定视频序列[21]，[45]。虽然PASCAL数据集可以说是最广泛使用的语义分割基准，但其评估指标忽略了每个对象边界周围5像素宽的区域。因此，通常在边界附着方面的明显改善不会反映在总体平均精度（mAP）中。因此，我们还包括使用DAVIS数据集[21]的结果，该数据集由高质量视频序列组成，每个帧具有像素精确的地面真值分割。基线：我们将pRGR与其前信元RGR进行比较，并与CRF进行比较，CRF可以说是语义分割中使用最广泛的后处理模块。我们还评估了CRF+pRGR的组合，其中我们的求精算法是在使用CRF求精的预测之上运行的。网络：

为了评估我们对不同质量输入预测的方法，我们考虑了四种不同的预先训练的、可公开使用的语义分割模型。首先，DeepLab COCO LargeFOV（此处DeepLab LargeFOV用于简洁）模型[12]，一个使用大视场的DeepLab模型，在[18]中也用于评估RGR。我们还评估了两个DeepLabV2模型（一个使用VGG[46]主干网，另一个使用ResNet主干网[47]）生成的预测的精化。最后，我们使用Exception主干网[48]评估了DeepLabV3+模型[19]

如第。二、这些模型代表了语义最新发展的不同阶段

分割。从他们的体系结构来看，当一个人从DeepLab移动到DeepLabV2，最后是DeepLabV3时，无论是在整体精度还是边界附着方面，都需要更精细的分段。训练这些模型所用的数据集对它们的性能也起着重要的作用。我们注意到，在预培训方面，DeepLab LargeFOV模型利用了MS-COCO数据集、PASCAL VOC 2012的trainaug子集以及执行评估的PASCAL VOC 2012的val集的注释。相反，我们在评估中使用的DeepLabV2和DeepLabV3+模型都只在VOC的trainaug子集上训练。在这四款机型中，只有DeepLabV2（VGG）没有接受COCO的预先培训。参数化：由于CRF依赖于对其超参数的网格搜索以获得最佳性能，如下文所述，我们选择了还提供了最佳CRF配置的公共可用模型。关于RGR，对于所有实验，如文献[18]所述进行参数化，其中在每个区域生长迭代中从分布U（0.5，0.9）中采样不同的高置信前景阈值τF。对于上述所有情况，pRGR被配置为对每个类记分图执行20次蒙特卡罗迭代。在[2，γh]范围内，采用系统分层抽样法，共对种子间距参数γ的10个不同值进行抽样。对于每一个γ，用反义颜色配置进行两次迭代，其中ρ=0.6，如第2节所述。III-E.根据它们的输出跨步，所考虑的不同网络在接收野大小方面需要不同程度的细化。对于pRGR，这对应于改变上限γh，因为它定义了最大预期簇大小。因此，γh是pRGR的唯一参数，根据具体情况进行了经验调整。为我们的实验选择的值列在表一中。对于所有使用CRF+pRGR的实验，γh设为16。

如图3所示，由DeepLab LargeFOV和DeepLabV2（VGG）提供的分段相当粗糙，因此对于这些情况，我们使用逆方差加权来执行两个pRGR细化步骤，以合并每个步骤的估计结果，如（21）中所述。

与帕斯卡基线的比较

表二总结了每种细化方法与对应的语义分割网络的四种变体的组合所提供的量化结果。由于边界只占图像总像素的一小部分，为了更好地量化边界依从性，我们遵循了[49]中提出的策略，并且还评估了在更靠近边界的较窄区域上的分割精度。图3示出了由每个提供的分割遮罩的定性示例

方法的组合，而图4示出了每种方法获得的地图值作为评估中考虑的对象边界宽度的函数。最后，图5根据PASCAL数据集的每个类别详细说明了每个方法的性能。

边界依从性：图4中的结果强调了所考虑的所有方法如何提高分割精度，特别是在边界附近的区域。与表二所示的结果相比，即使在诸如DeepLabV2（ResNet）这样的场景中，总体地图改进略高于+1.0%，使用pRGR在边界附近小于5px的区域中的分割精度也提高了大约+3.5%。

RGR与pRGR的比较：总体而言，我们的结果表明pRGR在考虑的所有场景中始终优于RGR。与它的前身RGR相比，pRGR的概率公式结合不同接收场大小的细化迭代，减少了噪声预测的发生，并将错误的影响降到最低

积极的。这在图3所示的鸟的翅膀和喙附近，也在马的顶部附近。

CRF与pRGR：就总体准确性而言，pRGR提供的mAP值略低于用CRF获得的mAP值。然而，图4中总结的结果表明：

对于边界附近小于5px的区域，使用pRGR改进的预测稍好于使用CRF的预测（FOV:+0.33%，VGG:+0.14%，ResNet:+0.43%）。这在图3中的鸟翅膀附近也是一个例子。另一方面，图5中自行车和椅子等类别的详细结果表明，pRGR的主要故障情况对应于具有大量误报的封闭区域，例如自行车车轮和椅子主轴的内部区域。定性地，这在图3的最后一个示例中示出。由于区域生长过程是基于8连通性的，它不能纠正这种包含大量误报的封闭区域。相反，CRF能够从这些错误中恢复过来，这反映在总体较高的mAP值中。然而，必须再次指出，pRGR是完全无监督的，而CRF必须根据所考虑的数据集和分割网络进行微调。

CRF+pRGR: 我们的分析表明，尽管CRF和pRGR提供相似的总体性能，但它们有不同的成功/失败案例。因此，结合CRF和pRGR是进一步细化分割掩模的潜在策略，这一点已被表II和图2中报告为CRF+pRGR的结果所证实。3和4。在所有评估的场景中，这种组合明显优于单独的CRF，特别是在图4定量显示的边界附近区域，并且可以在图3的椅子和鸟的细节中注意到。此外，图3中的第四个例子说明了pRGR如何还可以减轻CRF部分减弱的一些假阳性，例如马鞍和马膝附近的错误检测。最后，结合CRF+pRGR的结果也表明，如果减少假阳性的数量，并且有足够的优质种子，pRGR

DeepLabV3+预测的改进表三总结了使用RGR和pRGR进行改进前后DeepLabV3+的性能，用于PASCAL和DAVIS数据集的实验。与之前的实验不同，这里不考虑CRF基线，因为目前没有针对DeepLabV3+优化的CRF实现。

从表三和图4右下角的结果来看，使用DeepLabV3+在PASCAL数据集上的实验再次表明，尽管总体mAP的增益相对较小（≈0.36%），但RGR和pRGR在边界依从性方面提供了不可忽略的改进，即使是最先进的语义分割网络（对于边界附近小于5px的区域，约为1.0%）。为了进一步验证这一观察结果，我们从DAVIS 2016[21]和2017[45]数据集中选择了图6中列出的53个视频序列，以便使用相同的DeepLabV3+模型进行进一步实验。由于该模型是为21个PASCAL类别训练的，因此我们只选择目标对象在该类别集中的序列。

如前所述，DAVIS评估指标既包括union（或Jaccard index）J上的总交集，也包括轮廓精度指标F，它专门评估对象边界附近的精度。表三包含了在RGR和pRGR求精前后使用两种预测指标得到的结果。由于DAVIS注释考虑了构成对象边界的所有像素，因此在该数据集中，与在PASCAL数据集上进行的实验相比，边界依从性方面的改进对最终性能指标的影响更大。结果表明，两种改进方法的改进程度都在≈4.0%左右，pRGR在两个指标上都略优于其前测者。F度量的结果表明，pRGR在边界附着方面提供了很大的改进，平均F增加了3.9%。图7显示了此类改进的定性示例。在所有的例子中，我们观察到细化的分割遮罩如何包含更少的像素组成周围的背景。在前两张图片中，人们的头发和脚等细节被恢复。在最后一幅图像中，精细的分割正确地贴附在狗的皮毛上，并正确地将人与狗分开。根据图6中详述的单个戴维斯序列的结果，观察到一些包含车辆和动物作为目标的序列的性能较低。在第一种情况下，故障主要是由车辆下阴影的误报检测传播引起的。对于动物来说，当这种细长的结构被低置信度检测到，远离动物的身体，并且与周围的背景颜色相似时，四肢可能会失去。然而，我们强调，对于大多数评估的场景，都观察到了显著的改进。

不确定度估计

正如Kendall&Gal[50]所指出的，CNNs提供的标准化得分并不一定反映这些分类模型的不确定性。在文[51]中，利用蒙特卡罗辍学和具体辍学来捕获DeepLabV3+语义分割模型的不确定性。在我们的pRGR框架中，多个Monte Carlo精化项（使用（20）计算）的估计方差可以作为分类不确定性的度量。为了验证这一说法，我们对PASCAL数据集上的mAP值进行了评估，以确定方差值的阈值越来越高。同样，我们通过计算原始网络预测的准确性来建立一个比较基线，预测的班级分数的阈值越来越高。图8显示了使用DeepLab LargeFOV预测进行实验的结果。对于这两种情况，最上面一行的曲线表明预测得分（对于CNN预测）和估计方差（来自pRGR输出）与实际分割精度之间存在显著相关性。

然而，对于CNN的预测，在地图曲线的起点和终点都观察到了更尖锐的斜率变化。由于在这两种情况下，覆盖的样本分数随阈值的增加而非线性变化，因此我们也

分析样本的精确度与分数，以评估分割质量与不确定性估计之间的相关性。更具体地说，图8的底行中的图是通过绘制从顶行开始的每个对应图的左y轴与右y轴来获得的。此分析对应于评估当考虑具有越来越高不确定性的较大样本分数时，分割精度如何衰减。这一分析清楚地表明了pRGR方差估计与分割不确定性之间的线性关系。右列图显示pRGR估计方差与最终分割精度之间的相关性很强，相关系数R2≥0.99。为了简洁起见，我们只提供使用DeepLab LargeFOV的图，但是DeepLabV2（VGG）、DeepLabV2（ResNet）和DeepLabV3+网络配置的系数R2≥0.99。VI.结论我们提出了pRGR，一种用于语义分割细化的完全无监督RGR算法的更新版本。通过结合概率论、贝叶斯估计和方差约简的概念，PRGR不仅为RGR提供了坚实的数学基础，而且进一步提高了细化后得到的分割的质量。通过以分层方式采样种子间距参数的蒙特卡罗公式，pRGR在其高置信种子的多区域生长迭代中评估不同的接收场大小。结合使用共轭先验初始化簇协方差并随着像素簇分配发生而更新的策略，这些新特性允许pRGR优化分割遮罩以显著提高像素精度级别。通过在PASCAL和DAVIS数据集上使用DeepLab系列的四种不同配置进行的实验表明，用pRGR改进的分割预测得到了改进，特别是在边界附着和去除假阳性像素标签方面。

此外，该算法的实用性还包括与DenseCRF模型的可能结合，以进一步提高这些方法单独提供的分割质量，我们的实验结果证明了这一点。最后，由于其Monte Carlo估计框架，pRGR还生成方差估计，与最终的分割精度值显示出强的反向相关性。换言之，pRGR方差值可用于分割预测的不确定性估计，这将其应用范围扩展到诸如主动学习[52]、用于图像标记的人在环系统[53]和用于图像分割的半监督或弱监督方法[54]、[55]等场景。

语义分割无监督后处理：将高置信度像素标签传播到低置信度区域

友情链接更多精彩内容