Semi-supervised semantic segmentation needs strong, varied perturbations
https://arxiv.org/pdf/1906.01916v5.pdf
摘要:一致性正则化描述了一类在半监督分类问题中取得突破性成果的方法。先前的工作已经建立了一个聚类假设,在这个假设下,数据分布的组成为,样本的均匀的类别簇,被一些低密度区域所间隔(the data distribution consists of uniform class clusters of samples separated by low density regions),这对它的成功非常重要。我们分析了语义分割的问题,发现它的分布并没有表现出低密度的类分离区域,这也解释了为什么半监督分割是一个具有挑战性的问题,只有少数成功的报告。然后,我们确定在没有这种低密度区域的情况下,增强的选择是获得可靠性能的关键。我们发现最近提出的CutOut和CutMix增强技术的适应性变体(adapted variants)在标准数据集中产生了最先进的半监督语义分割结果。此外,考虑到语义分割的挑战性,我们建议语义分割作为评估半监督正则化器的有效酸性测试(effective acid test)。实现在:https://github.com/Britefury/cutmix-semisup-seg
除了官方实现,MODNet的作者也有其实现:https://github.com/ZHKKKe/PixelSSL
1. 引言
半监督学习提供了一个诱人的承诺,训练一个机器学习模型使用的数据集,只有一小部分样本有标签。这些情况经常出现在实际的计算机视觉问题中,大量的图像很容易获得,并且由于所需的成本和劳动力,真值注释成为瓶颈。
一致性正则化[23,29,30,36]描述了一类半监督学习算法,这些算法在半监督分类中产生了最新的结果,同时在概念上很简单,通常易于实现。其关键思想是鼓励网络对以各种方式扰动的未标记输入给出一致的预测。
一致性正则化的有效性通常归因于平滑假设[27]或聚类假设[6,35,37,42]。平滑假设(smoothness assumption)是指,彼此靠近的样本可能具有相同的标签。聚类假设,其是平滑假设的一个特例,是指决策面应该位于数据分布的低密度区域。在分类任务上,这是成立的。到目前为止,大多数一致性正则化的成功报告都是在分类任务。
在较高的层次上,语义分割就是分类,每个像素都是基于其邻域进行分类的。因此,有趣的是,只有两个报告成功的一致性正则化用于分割,都是医学图像分割[25,32],而没有自然摄影图像。我们观察到,即使中心像素的类别发生变化,以相邻像素为中心的patch之间的像素内容距离也会平滑变化,因此沿着类别边界不存在低密度区域。(We make the observation that the L2 pixel content distance between patches centered on neighbouring pixels variessmoothly even when the class of the center pixel changes, and thus there are no low-density regions along class boundaries)这一令人震惊的观察结果使我们研究了在这些情况下允许一致性正则化操作的条件。
我们发现基于掩模的增强策略对于半监督语义分割是有效的,CutMix[45]的一个自适应变体实现了显著的增益。
本文的主要贡献是分析了语义分割的数据分布,而且我们的方法是简单的。我们使用经过试验和测试的半监督学习方法,并采用CutMix(监督分类的增强技术)进行半监督学习和分割,获得最先进的结果。(We utilize tried and tested semi-supervised learning approaches, and adapt CutMix – an augmentation technique for supervised classification – for semi-supervised learning and for segmentation, achieving state of the art results.)
2 背景
我们的工作涉及三个领域的现有技术:用于分类的最新正则化技术、侧重于一致性正则化的半监督分类和语义分割。
2.1 MixUp, Cutout,CutMix
Zhang等人[46]的MixUp算法通过在训练过程中使用混合样本来提高有监督图像、语音和表格数据分类器的性能。使用随机选择的因子将两个随机选择的样本的输入和目标标签混合。
Devries等人[13]的Cutout器通过将矩形区域屏蔽为零来增强图像。Yun等人[45]最近提出的CutMix正则化器结合了MixUp和Cutout的方面,从图像B中切割出一个矩形区域,并将其粘贴到图像A上。MixUp、Cutout和CutMix提高了监督分类性能,其中CutMix的性能优于其他两种。
2.2 半监督分类
文献中提出了多种基于一致性正则化的半监督分类方法。它们通常将标准的有监督损失项(如交叉熵损失)与无监督一致性损失项相结合,后者鼓励对应用于无监督样本的扰动进行一致预测。
Laine等人提出的Π模型[23]将每个未标记的样本通过分类器两次,分别使用随机增强过程的两种实现,并将得到的类概率预测之间的平方差最小化。他们的时间模型和Sajjadi等人的模型[36]鼓励了当前预测和历史预测之间的一致性。Miyato等人[29]将随机增强替换为对抗方向,从而将扰动对准决策边界。
Tarvainen等人[41]的平均教师(mean teacher)模型鼓励学生网络和教师网络预测之间的一致性,教师网络的权重是学生网络的指数移动平均值[33]。在[15]中,平均教师被用于域适应。
无监督数据增强(UDA)模型[44]和最先进的FixMatch模型[38]证明了丰富的数据增强的好处,因为两者都结合了CutOut[13]和RandAugment[12](UDA)或CTAugment[3](FixMatch)。RandAugment和CTAugment是从14个图像增强的操作中提取。
Verma等人[42]提出的插值一致性训练(ICT),与MixMatch[4]一样,都是将MixUp[46]与一致性正则化结合起来。ICT使用平均教师模型,对无监督样本进行MixUp,将输入图像与教师网络类别预测混合,生成混合输入和目标,以训练学生。(ICT uses the mean teacher model and applies MixUp to unsupervised samples, blending input images along with teacher class predictions to produce a blended input and target to train the student.)
2.3 语义分割
大多数语义分割网络将图像分类器转换为一个完全卷积的网络,该网络产生一组密集的重叠输入窗口预测,分割任意大小的输入图像[26]。deeplabv3[8]体系结构通过将atronus卷积与空间金字塔池相结合来提高定位精度。Encoder-Decoder网络[2,24,34]使用跳连将像编码器这样的图像分类器连接到解码器。编码器逐渐地对输入进行下采样,而解码器进行上采样,产生分辨率与输入匹配的输出。
许多半监督语义分割方法使用额外的数据。Kalluri等人[19]使用来自不同领域的两个数据集的数据,最大限度地提高了每个数据集的每个类嵌入之间的相似性。Stekovic等人[39]在3D场景的多个视图之间使用深度图像和强制几何约束。
在严格的半监督环境中操作的方法相对较少。Hung等人[18]和Mittal等人[28]采用基于GAN的对抗式学习,使用区分真实和预测分割图的鉴别器网络来指导学习。
我们所知的一致性正则化在分割中的唯一成功应用来自医学成像界;Perone等人[32]和Li等人[25]分别将一致性正则化应用于MRI体积数据集和皮肤损伤。两种方法都使用标准增广来提供扰动。
3 语义分割的一致性正则化
一致性正则化将一致性损失项添加到训练期间最小化的损失中[30]。在分类任务中,衡量的是,神经网络对一个无监督样本的预测,以及对该样本的扰动版本的预测之间的距离,也即。用以生成的扰动取决于使用的一致性正则化的版本。使用的距离度量有很多种:例如平方距离[23]或交叉熵[29]。
Athiwaratkun等人[1]的分析支持了聚类假设的好处。他们分析了一个简化的Π-模型[23]使用加性各向同性高斯噪声进行扰动,发现的期望值与神经网络输出相对于输入的雅克比的平方幅度(Lcons is approximately proportional to the squared magnitude of the Jacobian Jfθ(x) of the networks outputs with respect to its inputs.)近似成正比。因此,最小化LCON会使无监督样本附近的决策函数变得平坦,将决策边界及其周围的高梯度区域移动到低样本密度区域。
3.1 为什么半监督语义分割具有挑战性
我们将语义分割看做是用滑动窗口做图块(patch)分类,目的是识别图块中心像素的类别。鉴于先前的工作[23,29,38]将扰动应用于原始像素(输入)空间,我们对数据分布的分析侧重于图像块的原始像素内容,而不是来自网络内部的更高级别特征。
我们将一致性正则化在自然图像语义分割问题中的罕见成功归因于观察到:输入数据中的低密度区域没有很好地与类边界对齐(low density regions in input data do not align well with class boundaries)。这种低密度区域的存在表现为局部大于类边界两侧相邻像素为中心的斑块之间的平均L2距离。(The presence of such low density regions would manifest as locally larger than average L2 distances between patches centred on neighbouring pixels that lie either side of a class boundary)。在图1中,我们可视化了相邻图块之间的L2距离。当使用如图1(c)所示的合理的感受野时,我们可以看到明显违反了聚类假设:一个像素的感受野的原始像素内容与相邻像素的感受野内容有多大的不同,与图像块的中心像素是否属于同一类几乎没有关联(how much the raw pixel content of the receptive field of one pixel differs from the contents of the receptive field of a neighbouring pixel has little correlation with whether the patches’ center pixels belong to the same class)。
图1:在分割任务中,低密度区域很少对应于类边界。(a) 来自CITYSCAPES数据集的图像裁剪。(b) 以像素p为中心的面片的原始像素内容与以像素p的近邻为中心的四个重叠面片之间的平均L2距离,使用15×15像素图块。(c) 对于225×225像素的更真实的感受野大小也是一样的。较深的颜色表示图块间距离较大,因此为低密度区域。红线表示分割真值边界。
从信号处理的角度来看,没有出现图块级别的距离的变化是很容易解释的(The lack of variation in the patchwise distances is easy to explain from a signal processing perspective)。大小为H的补丁×W、 以所有水平相邻像素对为中心的重叠面片的像素内容之间的l2距离的距离图可以写成p(∆十一)◦2∗ 1小时×W,哪里∗ 表示卷积和∆xI是输入图像I的水平梯度。因此,按元素的平方梯度图像通过H×W box filter1,它抑制了在图像的高频分量中发现的精细细节,从而使整个图像的样本密度平滑变化。
我们对CITYSCAPES数据集的分析量化了在两个相邻像素之间放置决策边界所涉及的挑战,这两个像素应该属于不同的类,同时推广到其他图像。我们发现以类边界两侧像素为中心的面片之间的L2距离是∼ 在不同的图像中找到的同一类的最近斑块距离的1/3(见图2)。这表明决策边界的精确定位和定向对于良好的性能至关重要。我们将在补充材料中进一步详细讨论我们的分析。
3.2 无聚类假设的一致性正则化
当我们在上面的分析中考虑到一致性正则化成功应用于语义分割的少数报告时,尤其是Li等人[25]的工作,使我们得出结论:低密度区域的存在非常有益,但不是必要的。因此,我们提出了另一种机制:使用非各向同性自然扰动(如图像增强)来约束决策边界的方向,使其与扰动方向平行(见Athiwaratkun等人[1]的附录)。我们现在将使用一个2D的 toy example来探索这一点。
图3a通过一个简单的2D玩具均值教师实验说明了聚类假设的好处,在这个实验中,聚类假设成立,因为存在一个间隙(gap),将属于两个不同类的无监督样本分开。所使用的扰动是在两个坐标维度上的各向同性高斯微移(an isotropic Gaussian nudge to both coordinates),并且如预期的那样,学习的决策边界在两个簇之间整齐地安置。在图3b中,无监督样本均匀分布,违反了聚类假设。在这种情况下,一致性损失弊大于利;即使它成功地平坦了决策函数的邻域,它也跨越了真正的类边界。
在图3c中,我们绘制了到真值类边界的距离的等高线。如果我们对样本的扰动做这样的约束,使得扰动版本位于(或者非常接近)所在的距离等高线上(such that the perturbed ˆx lies on or very close to the distance contour passing through x),得到的判定边界与真实的类边界对齐,如图3d所示。当不存在低密度区域时,必须仔细选择扰动,以使穿过类边界的概率最小化。
我们提出,只要增广/扰动机制遵守以下准则,可靠的半监督分割是可以实现的:1)扰动必须是变化的和高维的,以便在自然图像的高维空间中充分约束决策边界的方向,2)与其他维度的探索量相比,扰动跨越真实类边界的概率必须非常小,3)扰动输入应该是可信的;它们不应该严重超出实际输入的范围。
1) the perturbations must be varied and high-dimensional in order to sufficiently constrain the orientation of the decision boundary in the high-dimensional space of natural imagery, 2) the probability of a perturbation crossing the true class boundary must be very small compared to the amount of exploration in other dimensions, and3) the perturbed inputs should be plausible; they should not be grossly outside the manifold of real inputs.
经典的基于增强的扰动,如裁剪、缩放、旋转和颜色变化,混淆输出类的可能性很低,并且已经证明在自然图像分类中是有效的[23,41]。考虑到这种方法在一些医学图像分割问题上取得了积极的结果[25,32],令人惊讶的是,它对自然图像是无效的。这促使我们寻找更强大和更多样的增强半监督语义分割。
3.3 用于语义分割的CutOut和CutMix
Cutout[13]在UDA[44]和FixMatch[38]的半监督分类中产生了很强的结果。UDA消融研究表明,CutOut在半监督性能中所占份额最大,FixMatch消融研究表明,CutOut可以匹配CTAugment使用的14种图像操作组合的效果。DeVries等人[13]证实,CutOut鼓励网络利用更广泛的各种特征,以解决出现的不同部分的不同组合或者是被屏蔽(in order to overcome the varying combinations of parts of an image being present or masked out)。这个由Cutout引入的变体表明它是一个很有前途的用于分割的候选。
如第2.1节所述,CutMix将Cutout与MixUp相结合,使用矩形掩膜混合输入图像。鉴于MixUp在ICT[42]和MixMatch[4]中已经成功地应用于半监督分类,我们建议使用CutMix以类似的方式混合无监督样本和相应的预测(we propose using CutMix to blend unsupervised samples and corresponding predictions in a similar fashion)。
初步实验比较了Π-模型[23]和mean-teacher模型[41]表明,使用mean-teacher是语义分割获得好性能的关键,因此本文的所有实验都使用mean-teacher框架。我们将学生网络表示为 ,将教师网络表示为。
Cutout 和[13]一样,我们用值1初始化一个掩码,并将随机选择的矩形内的像素设置为0。为了在语义分割任务中应用CutOut,我们用屏蔽输入像素,忽略被屏蔽为0的像素的一致性损失。FixMatch[38]使用了一个弱增强方案,该方案由crops和flips组成,用于预测用作使用强增强方案增强的样本的目标的伪标签。同样,我们认为CutOut是一种强增广形式,因此我们将教师网络对原始图像生成伪目标,用于训练学生 。使用平方距离作为度量,我们得到,其中⊙ 表示元素乘积。
CutMix CutMix需要两个输入图像,我们将其表示为和,我们用掩膜将两者混合。和ICT[42]一样,我们将老师网络对输入图片的预测进行混合,以产生学生网络预测混合图像的伪标签(we mix the teacher predictions for the input images gφ(xa),gφ(xb) producing a pseudo target for the student prediction of the mixed image)。为了简化表示法,让我们定义函数,其根据掩膜来混合两幅图像。我们现在可以将一致性损失写为:
用于分类的CutOut[13]的原始做法是使用了一个具有固定大小和纵横比的矩形,其中心是随机定位的,允许矩形的一部分位于图像边界之外。CutMix[45]随机改变大小,但使用固定的纵横比。在分割中,对于CutOut,我们通过随机选择大小和纵横比,但固定住矩形位置,使其完全位于图像中,从而获得了更好的分割性能。相反,对于CutMix,通过将矩形的面积固定为图像面积的一半,同时改变纵横比和位置,CutMix性能得到最大化。
虽然Cutout和CutMix应用的增强不会出现在真实图像中,但从视觉角度来看,它们是合理的。分割网络经常使用图像裁剪而不是完整的图像来训练,因此用CutOut来分割图像的一部分可以看作是逆操作。应用CutMix实际上是将一个矩形区域从一个图像粘贴到另一个图像上,类似地产生一个合理的分割任务。
基于Cutout和CutMix的一致性损失在我们的补充材料中进行了说明。
4个实验
我们现在将描述我们的实验和主要结果。我们将首先介绍培训设置,然后介绍PASCAL VOC 2012、CITYSCAPES和ISIC 2017数据集的结果。在PASCAL和ISIC的半监督语义切分中,我们比较了各种扰动方法。
4.1培训设置
我们在实验中使用了两种分割网络:1)基于ImageNet预训练的ResNet-101的DeepLab v2网络[7],如[28]所用;2)基于DensetNet-161的密集U网络[24],如[25]所用。我们还在补充材料中使用deeplabv3+[9]和PSPNet进行评估。
我们使用交叉熵作为有监督损失Lsup,并使用Mean-teacher算法计算一致性损失lcon[41]。对类维度上的LCON求和,对其他维度求平均,这样我们就可以用相等的权重最小化Lsup和LCON。补充材料中提供了更多详细信息和超参数设置。我们用教师网络的阈值置信度的平均值来代替[23,41]中调节LCON的sigmoidal ramp up,它随着培训的进行而增加[15,20,38]。
4.2城市景观和增强Pascal VOC结果
在这里,我们展示了我们在两个自然图像数据集上的结果,并将它们与半监督语义分割的最新技术进行了对比,半监督语义分割是Mittal等人的对抗性训练方法[28]。我们在实验中使用了两个自然图像数据集。城市景观由城市景观组成,其训练集中有2975幅图像。PASCAL VOC 2012[14]更为多样,但仅包含1464个训练图像,因此我们遵循Hung等人[18]的研究,并使用语义边界[16]对其进行扩充,得到10582个训练图像。我们采用了与[28]相同的种植和扩大计划。
除了ImageNet预先训练的DeepLab v2之外,Hung[18]和Mittal等人[28]还使用预先训练的DeepLabv2网络对COCO数据集进行语义分割,其自然图像内容与PASCAL相似。他们的研究结果证实了特定任务预训练的好处。从一个预训练的ImageNet分类器开始,它代表了一些实际问题,对于这些问题,类似的分割数据集是不可用于预训练的,因此我们选择只使用这些更具挑战性的条件。
我们的城市景观结果如表1所示,为平均联合交叉口(mIoU)百分比,越高越好。我们对城市景观的监督基线结果与[28]相似。我们将小的差异归因于训练机制的选择,比如优化器的选择。Cutout和CutMix都实现了对监督基线的改进,CutMix在对抗性[18]和s4GAN[28]方法上取得了领先和改进。我们注意到,当使用全尺寸图像裁剪获得58.75%的mIoU分数时,CutMix性能略有下降±372个标记图像为0.75。使用由三个小盒子组成的混合掩模(见补充材料),其比例与图像内容更匹配,可缓解这一问题,获得60.41%±1.12.
我们的PASCAL结果如表2所示。我们的基线比[28]的基线要弱得多;我们承认我们无法与他们匹敌。Cutout和CutMix的产量比我们的基线有所提高,CutMix——尽管基线较弱——领先于对手和s4GAN的结果。虚拟对抗训练[29]产生了显著的改进,但无法与竞争方法相匹敌。从ICT[42]中获得的改进是显而易见的,而标准增强几乎没有任何区别。有关使用DeepLab v3+[9]和PSPNet[47]网络的结果,请参阅我们的补充资料。
4.3 ISIC 2017结果
ISIC皮肤病变分割数据集[11]由皮肤镜图像组成,聚焦于针对皮肤的病变。它的训练集中有2000幅图像,是一个两类(皮肤和病变)分割问题,其特点是变化远小于城市景观和PASCAL。
我们遵循Li等人[25]的预处理和增强方案;所有的图像被缩放到248×我们的增广方案由随机224组成×224个裁剪、翻转、旋转和均匀缩放,范围为0.9到1.1。
我们在表3中给出了我们的结果。我们必须首先注意,我们的监督基线结果明显比Li等人的结果差[25]。鉴于这一局限性,我们使用我们的结果来对比不同增强方案的效果。我们最强的半监督结果是使用CutMix,其次是标准增强,然后是VAT和CutOut。我们发现CutMix是最可靠的,因为其他方法需要更多的超参数调整工作来获得积极的结果。我们无法从信息和通信技术中获得可靠的性能,因此其结果比基线更差。
我们认为,标准增广的良好性能(与PASCAL相比几乎没有任何区别)是由于数据集缺乏变化。无监督样本的增广变体足以与数据集中的其他样本相似,从而成功地传播标签,尽管标准增广引入了有限的变量。
4.4讨论
我们最初假设,CutMix在城市景观和PASCAL数据集上的强大性能是由于增强了“模拟遮挡”,使网络暴露在更广泛的遮挡下,从而提高了在自然图像上的性能。这就是我们使用ISIC 2017数据集的动机;它的图像不具有来自皮肤的闭塞和软边缘双线病变[31]。CutMix的强大性能表明,遮挡的存在不是必需的。
虚拟对抗训练的成功表明,在语义分割所带来的挑战性条件下,探索对抗性例子的空间提供了足够的变异,可以作为有效的半监督正则化器。相比之下,从信息通信技术中获得的微小改进和标准增强对PASCAL数据集产生的几乎不明显的差异表明,这些方法不适合这一领域;我们建议使用更多样化的源或扰动,如CutMix。
5 结论
我们已经证明了一致性正则化是半监督语义分割的一个可行的解决方案,只要使用适当的增广源。它的数据分布缺乏类之间的低密度区域,妨碍了仿射变换和ICT等增强方案的有效性。我们证明了更丰富的方法是成功的,并提出了一种自适应的CutMix正则化器,它提供了足够多的扰动,以实现最新的结果,并在自然图像数据集上可靠地工作。我们的方法比以前基于GAN风格训练的方法更易于实现和使用。
我们假设,在给定滑动窗口输入的情况下,涉及分割连续信号的其他问题域(如音频处理)可能具有类似的挑战性分布。这表明基于掩模的正则化是一种潜在的途径。
最后,我们提出,在语义分割中存在的数据分布的挑战性性质表明,它是一个有效的酸性测试,以评估未来的半监督正则化。
补充材料
Pascal VOC 2012跨网络体系结构的性能分析
我们在表4中的PASCAL数据集上使用了多种体系结构,证明了我们的方法的有效性。使用ImageNet预训练的deeplabv3+我们的基线和半监督结果比[28]的结果更强。
B平滑变化的语义切分样本密度
B.1信号处理说明的推导
在这一节中,我们将解释我们推导的基于信号处理的语义分割中缺乏低密度区域的解释问题。
为了分析图像上斑块分布的平滑度,我们需要计算以相邻像素为中心的斑块之间的l2像素内容距离。让我们从两个面片A和B开始——见图4(A,B)——从图像I中提取,以水平相邻像素为中心,在B的左侧有一个像素。L2距离是| B−A |。假设B中的每个像素− A是水平相邻像素之间的差值,B−因此,A是从水平梯度图像中提取的面片∆十一(见图4(c))。平方距离是B元素的平方和− 一个;它是从中提取的面片中元素的总和(∆十一)◦2 . 计算所有大小为H的面片的和×以滑动窗口的方式穿过(∆十一)◦2相当于将它与一个box内核卷积1h×因此,所有水平相邻面片之间的距离可以用p(∆十一)◦2∗ 1小时×W。盒式滤波器或密切相关的均匀滤波器是一种低通滤波器,它将抑制高频细节,从而产生平滑的输出。这是在Jupyter笔记本[22]中实现的,它与我们的代码一起分发。
B.2城市景观内的斑块间距离分析
我们对城市景观的分析表明,语义分割问题表现出较高的类内方差和较低的类间方差。我们选择了1000个图像贴片三胞胎,每个三胞胎由一个锚定贴片Ai和正Pi以及负Ni贴片组成,它们分别具有与Ai相同和不同的基本真值类别。我们使用了l2像素内容类内距离| Pi− Ai | 2和类间距离| Ni− Ai | 2作为方差的代理。假设分割模型必须在图像中不同类别的相邻像素之间放置决策边界,我们选择Ai和Ni作为类别边界两侧的近邻。由于该模型还必须从标记图像推广到未标记图像,因此我们搜索了所有图像,除了包含Ai的图像,寻找属于使Pi最小化的同一类的Pi− Ai | 2。最小化距离选择模型必须推广的最佳类内距离。图2左侧的类间与类内距离比率直方图位于右侧的插图下方,其中蓝色的类内距离约为3× 那红色的班际距离。该模型必须学会将决策边界放置在以相邻像素为中心的面片之间,同时对其进行足够精确的定位,使其在正确的点与其他图像相交。
C设置:2D玩具实验
在我们的2D玩具实验中使用的神经网络是简单的分类器,其中样本是从-1到1的2D x,y点。我们的网络是多层感知器,由3个512个单元的隐藏层组成,每个层后面跟着一个ReLU非线性。最后一层是2单元分类层。我们使用mean-teacher[41]半监督学习算法,以二进制交叉熵作为一致性损失函数,一致性损失权为10,置信阈值为0.97。地面真值决策边界是由手绘的512×512像素图像。图3(c)所示的距离图是使用scipy.ndimage计算的。SciPy[43]中的morphomatics.distance_transform_edt函数,对于指定给类0的区域,距离取反。因此距离图中的每个像素到地面真值类边界都有一个有符号距离。该距离图用于生成图3(c)中的直线数,并用于支持图3(d)中所示的约束一致性正则化实验。第3.2节中描述的约束一致性正则化实验要求对样本x进行扰动ˆ使它们与地面真值判定边界处于相同或相似的距离。这是通过从正态分布中提取各向同性扰动来实现的ˆx=x+h,其中h∼ N(0,0.117)(0.117)≈ 源图像中的30个像素),确定距离m(x)和m(xˆ) 从x和ˆx到地面真值边界(使用预先计算的距离图)并通过掩盖x到0的一致性损失(如果| m(xˆ) − m(x)|>0.016(0.016)≈ 源图像中的4像素)。
三维语义切分实验装置
D.1采用半监督分类算法进行分割
在主要的论文中,我们解释了我们是如何将Cutout[13]和CutMix[45]用于分割的。在这里,我们将讨论我们的方法来适应标准增强,插值一致性训练(ICT)和虚拟对抗训练(VAT)。我们注意到所有这些方法的实现都随源代码一起提供。
D.1.1标准扩充
我们的标准基于增强的一致性损失使用仿射变换来修改无监督图像。在教师和学生路径中应用不同的仿射变换会导致预测不一致。必须使用适当的仿射变换使它们对齐。为此,我们遵循Perone等人[32]和Li等人[25]的方法;原始的未分段图像x被传递到教师网络gφ 生产预测gφ (x) ,与原始图像对齐。用仿射变换a(·)增强图像:ˆx=a(x),传递给学生网络fθ 生产预测fθ (a(x))。同样的变换也适用于教师预测:a(g)φ (x) )。这两个预测现在几何对齐,允许计算一致性损失。
在这一点上,我们要指出执行工作中涉及的一些挑战。一种自然的方法是使用单个系统应用仿射变换,例如PyTorch提供的仿射网格功能[10];这样,输入图像和预测都可以使用相同的变换矩阵进行扩充。然而,我们希望精确匹配Hung等人[18]和Mittal等人[28]使用的增强系统,这两个系统都使用OpenCV[5]提供的功能。这需要对OpenCV中的相关函数如何生成和应用仿射变换矩阵有一个准确的了解,以便使用PyTorch的仿射网格功能(必须用于变换预测)来匹配它们。
D.1.2插值一致性训练
信息和通信技术是最简单的适应办法。我们遵循[42]中的过程,只是我们的网络生成像素级概率向量。它们是混合的,损失是以与[42]相同的方式计算的;唯一不同的是数组/张量有额外的维数。
D.1.3虚拟对抗训练
按照Oliver等人[30]的注释,在分类方案中,VAT将对抗性扰动radv计算为:
我们采用完全相同的方法,计算最大化输出所有像素类预测变化平均值的对抗性扰动。
我们扩大了作战半径ε 通过将其乘以输入图像的梯度大小,自适应地基于每个图像。我们发现1的比例很好地工作,并在我们的实验中使用了这一点。我们还尝试使用一个固定值ε – 正如通常在增值税中使用的那样——并发现这样做会导致轻微但在统计上不显著的绩效下降。因此,基于易用性,我们建议使用自适应半径。它是在我们的源代码中实现的。
D.2 CutMix和Cutout计算说明
我们在图5和图6中分别说明了基于CutMix的一致性损失lcon和Cutout一致性损失的计算。
D.3城市景观上全尺寸作物的切割混合
正如我们在正文中所述,当使用CITYSCAPES数据集时,使用全尺寸图像裁剪–1024×512而不是通常的512×256–使用CutMix正则化削弱半监督学习的性能,将mIoU分数从60.34%降低± 1.24至58.75%±0.75. 我们相信,当混合掩模中元素的尺度与图像内容的尺度适当匹配时,可以获得最佳性能。我们可以通过随机选择三个面积为一个盒子的1/3的小盒子(正常情况)来构建我们的混合掩模,从而缓解perofmnace的这种减少。假设由单个框组成的CutMix遮罩使用的框覆盖了50%的图像区域(但具有随机的纵横比和位置),则三个框分别覆盖图像区域的1/6。三个框的掩码使用异或操作组合。图7一盒和三盒掩模的对比混合。
D.4培训细节
D.4.1为城市景观和Pascal VOC 2012使用ImageNet预先培训的DeepLab v2体系结构
我们使用Adam[21]优化算法,学习率为3× 10−5 . 根据mean-teacher算法[41],在每次迭代之后,教师网络的权重wt被更新为学生权重ws的指数移动平均值:wt=α行波管+(1)−αt) ws,哪里αt=0.99。
城市景观图像被降采样到半分辨率(1024)× 512)使用前,如[18]所述。我们提取了512个× 256种随机作物,采用随机水平翻转,批次大小为4,符合[28]。
对于PASCAL VOC实验,我们提取了321× 321种随机作物,应用0.5到1.5之间的随机尺度,四舍五入到最接近的0.1,并应用随机水平翻转。我们使用的批量大小为10,符合[18]。
我们对所有实验都使用了0.97的置信阈值。我们对CutOut和CutMix使用了1的一致性损失权重,0.003表示标准增强,0.01表示ICT,0.1表示增值税。
超参数调整是通过评估一个保持验证集的性能来执行的,该验证集的样本来自PASCAL训练集。
我们为这两个数据集训练了40000次迭代。我们还发现,使用deeplabv2时,相同的超参数对这两种方法都很有效。
D.4.2为ISIC 2017使用ImageNet预先培训的DensueNet
所有的图像被缩放到248×248使用面积插值作为预处理步骤。我们的增广方案包括随机224×224裁剪、翻转、旋转和均匀缩放
在0.9到1.1之间。
与[25]不同的是,我们标准的基于增强的实验允许通过教师和学生路径的样本彼此任意旋转和缩放(在上面指定的范围内),其中[25]使用90度整数倍的旋转和翻转。
我们所有的ISIC 2017实验都使用具有Nesterov动量[40]的SGD(动量值为0.9),学习率为0.05,权重衰减为5× 10−4 . 对于剪切和剪切混合,我们使用的一致性权重为1,标准增强为0.1,增值税为0.1。
我们要注意的是,将每个图像的最短尺寸缩放到248像素,同时保持纵横比会降低性能;预处理步骤中的非均匀尺度作为数据扩充的一种形式。
D.4.3增强Pascal VOC 2012的不同体系结构
我们发现使用不同的学习率,不同的网络架构可以提供最佳的性能,如表5所示。
我们使用了基于ResNet-101的PSPNet的MIT CSAIL实现[47]。为了使用损失函数,我们不得不修改他们的代码。我们注意到,我们没有使用[47]中的辅助损失,即MIT CSAIL GitHUb存储库中的深度监管技巧。
D.4.4置信阈值
[15] 应用置信度阈值法,对教师网络预测的置信度低于阈值0.968的样本,将一致性损失掩盖为0。在分割的上下文中,我们发现这种方法会屏蔽接近类边界的像素,因为它们通常具有较低的置信度。这些区域通常足够大,足以容纳小对象,防止学习和降低性能。相反,我们用置信度高于阈值的像素比例来调节一致性损失。这个值在整个训练过程中不断增长,取代了[23,41]中使用的乙状结肠斜坡。
D.4.5平方误差一致性损失
大多数使用平方误差的一致性损失实现(例如[41])计算所有维度上平方误差的平均值。相反,我们在类概率维度上求和,在空间维度和批量维度上计算平均值。这与交叉熵和KL散度等概率向量使用的其他损失函数的定义更为一致。我们还发现,这减少了根据类数缩放一致性权重的必要性;按照要求,然后取类概率维的平均值[41]。
Available at https://github.com/CSAILVision/semantic-segmentation-pytorch.
3Our modified version can be found in the logits-from-models branch of https://github.com/Britefury/semantic-segmentation-pytorch