论文地址：https://arxiv.org/pdf/1802.07934.pdf
代码地址：https://github.com/hfslyc/AdvSemiSeg

1. Introduction

本文用对抗性学习方案，并提出了一种完全卷积鉴别器，它可以学习区分地面真值标签图与分割预测的概率图。结合空间交叉熵损失，本文使用对抗性损失，鼓励分割网络在高阶结构中产生接近真实标签地图的预测概率图。这个想法与使用概率图模型如条件随机场（CRF）（Zheng等，2015; Chen等，2017; Lin等，2016）类似，但没有额外的后处理模块在测试阶段。另外，在推理过程中不需要鉴别器，因此本文提出的框架不会增加任何测试的计算能力。通过采用对抗学习，进一步利用了在半监督环境下提出的完全卷积鉴别器。
这项工作的贡献如下:首先，我们开发了一个对抗框架，可以在推理过程中提高语义分割的准确性，而无需额外的计算负担。其次，我们通过利用未标记图像的鉴别网络响应来帮助训练分割网络，从而促进半监督学习.

2.Related Work

Semantic Segmentation

最近的最先进的语义分割方法是基于CNN的快速发展。正如Long等人（2015年）提出的那样，人们可以转换CNN的分类AlexNet（Krizhevsky et al。，2012），VGG（Simonyan＆Zisserman，2015）或ResNet（He et al。，2016）到解决语义分割任务的全卷积网络（FCN）。但是，像素级注释通常很昂贵且难以收集。为了减少标签分割基础事实的繁重工作，近年来提出了许多弱监督的方法。在弱监督环境中，分割网络未在像素级进行训练，并且有完全注释的基本事实。相反，网络是用各种更容易获得的弱监控信号进行训练的。在大多数方法中，图像级标签被用作监控信号。 Pinheiro＆Collobert（2015）和Pathak等（2015b）使用多重实例学习（MIL）为监督训练生成潜在分割标签图。另一方面，Papandreou et al。（2015）提到图像级标签会惩罚不存在对象类的预测，而Qi et al。（2016）使用对象本地化来细化分割。Hong et al。（2015）将标记图像称为分类网络，作为反卷积的特征提取器。除了图像级别的监督外，分割网络还可以用边界框（Dai等，2015; Khoreva等，2017），点监督（Bearman等，2016）或网络视频（Hong等），2017）。
与前述方法不同，我们的方法可以在模型训练中利用未标记的图像，从而大大节省手动注释的成本。事实上，我们将完全卷积鉴别器的输出视为监督信号，它补偿了图像注释的缺失并实现了半监督语义分割。我们自学的分割学习框架与Pathak et al。（2015a）相关，其中未标记图像的预测图用作基础事实。然而，在Pathak等人（2015a）中，预测图通过在训练之前由几个手工设计的约束来完善，而我们通过鉴别器网络学习了置信度图作为自学教学的选择标准。

3. Algrothim Overview

我们的鉴别器网络是一个基于FCN的网络，它将分类概率图作为输入，从分割网络或地面真值标签地图中输入，然后输出大小为Hx Wx 1的空间概率图。鉴别器的每个像素p输出映射表示该像素是从地面实况标签（p = 1）还是从分段网络（p = 0）采样。与采用固定尺寸输入图像（大多数情况下为64×64）并输出一个概率值的典型GAN鉴别器相比，我们将鉴别器转换为可完成任意大小输入的全卷积网络。重要的是，我们发现这种转变对建立对抗性学习计划至关重要。
在训练过程中，我们在半监督设置下使用标记和未标记的图像。当使用带标签的数据时，分割网络受标准交叉熵损失与地面实况标签图以及鉴别器网络的对抗损失的监督。请注意，我们仅使用带标签的数据来训练鉴别器网络。对于未标记的数据，我们用所提出的半监督方法来训练分割网络。在从分割网络获得未标记图像的初始分割预测之后，我们通过将分割预测通过鉴别器网络来获得置信度图。我们反过来把这个置信图作为监督信号，使用“自学”方案来训练带有Mask交叉熵损失的分割网络。直觉是这个置信度图表示预测分割的本地质量，以便分割网络知道训练期间要信任哪些区域。

4. Semi-supervised training with adversarial network

4.1 Training objective

Discriminator network training

如果样本来自分割网络，则yn = 0，如果样本来自地面实况标签，则yn = 1。鉴别器网络将C通道概率图作为输入。为了将具有离散标签的地面实况标签地图转换为C信道概率图，我们简单地在地面真值标签地图上采用一种热门编码方案，其中Yn取值1，如果像素X（i）属于类别c，否则为0。
Luc等人（2016年）提出鉴别器网络可能通过检测概率来容易地区分概率图是否来自真实值。但是，我们在训练阶段没有观察到这种现象。一个原因是我们使用全卷积方案来预测空间置信度，这增加了学习鉴别器的难度。此外，我们尝试Luc et al。（2016）提出的Scale方案，根据分割网络输出的分布，将真实实际概率信道稍微扩散到其他信道。然而，结果显示没有差异，因此我们在实验中不采用这种方案。

Segmentation network training

Training with unlabeled data

使用未标记的数据进行训练。现在我们考虑半监督环境下的对抗训练。对于未标记的数据，显然我们不能应用Lce，因为没有可用的地面真实标签。对抗损失Ladv仍然适用，因为它只需要鉴别器网络。然而，我们发现，仅仅在没有Lce的情况下对未标记的数据应用对抗性损失时，性能会退化。这是合理的，因为鉴别器用作正则化并可能过度纠正预测以适应地面真实分布。因此，我们建议使用“自学”策略来利用带有未标记数据的训练过的鉴别器。
主要思想是训练过的鉴别器可以生成一个置信图，即D（S（Xn））（h，w），它推断出预测结果足够接近地面真实分布的区域。然后，我们用一个阈值对这个置信图进行二值化，以突出显示可信区域。结果，我们使用这个二值化的置信度图将自学成的基本事实定义为掩码分割预测Yn = argmax（S（Xn））。由此产生的半监督损失定义为：

I（·）是指示函数，Tsemi;是控制自学过程灵敏度的阈值。在训练期间，将自学成的目标Yn和指示函数的值视为常量，因此Lsemi可以简单地视为掩码的空间交叉熵损失。在实践中，我们发现这个策略在Tsemi范围在0.1到0.3之间稳健运行。

4.2 Network Architecture

Segmentation Network

在ImageNet数据集（Deng等，2009）上预先训练的ResNet-101（He et al。，2016）模型采用DeepLab-v2（Chen et al。，2017）框架作为我们的分段基准网络。然而，我们没有采用Chen等人提出的多尺度融合。（2017）由于内存问题。根据最近关于语义分割的研究（Chen等，2017; Yu＆Koltun，2016），我们删除了最后一个分类层，并将最后两个卷积层的步幅从2改为1，从而使分辨率的输出特征有效地映射1/8倍的输入图像大小。为了扩大接受范围，我们在conv4和conv5层分别应用扩张卷积（Yu＆Koltun，2016），步长分别为2和4。在最后一层之后，我们采用Chen等人提出的Atrous Spatial Pyramid Pooling（ASPP）。（2017年）作为最终分类。最后，我们应用上采样层以及softmax输出来匹配输入图像的大小。

Discriminator network.

对于鉴别器网络，我们遵循Radford等（2016）中使用的结构。它由5个卷积层组成，核心4×4的通道数为{64,128,256,512,1}，步长为2.每个卷积层之后是一个Leaky-ReLU（Maas et al。，2013），参数为0.2，除了最后一层。为了将网络转换为完全卷积网络，将上采样层添加到最后一层以将输出重新缩放为输入映射的大小。我们不使用批处理规范化图层。我们发现批量标准化层的性能和批大小有关。

Adversarial learning for semi-supervised semantic segmentation