【论文笔记】Multi-Camera Transfer GAN for Person Re-Identification

DOI： 10.1016/j.jvcir.2019.01.029
引用：
Zhou S , Ke M , Luo P . Multi-Camera Transfer GAN for Person Re-Identification[J]. Journal of Visual Communication and Image Representation, 2019, 59(FEB.):393-400.
这一篇是我们专业师兄的论文哈哈，向师兄学习，哈哈。

解决的问题是：

在一个数据集上训练的re-id模型无法在另一个数据集上工作。
文中提出来的方法：
①CTGAN（Multi-Camera Transfer ）,CTGAN可以通过仅使用一个模型在多个摄像机域上运行。
②对于特征学习模型，文中采用MSCDA(Mixed Selective Convolution Descriptor Aggregation),这个模型可以定位图片中主要行人对象，过滤掉背景的噪音，保留有用的深度描述符。

出现文中迁移问题的原因：domain gap 域间隙（当在一个数据集上训练的模型直接在另外一个数据集上使用时，准确率会急剧下降）例如，在DukeMTMC-reID上测试在Market-1501的训练的模型，rank-1的准确度只有33.1%。

什么会导致domain gap？
不同数据集之间；
相同数据集之间不同摄像机的分辨率，环境和灯光的不同都会导致domain gap;

文章的方法主要分为两步骤：
①将源数据集上的图像转换到目标数据集上的每一个摄像机的样式，并且转换之后的图像保留初始的身份标签。
②转换后的图像作为目标数据集模型的训练数据。

作者研究的必要性：

在行人充识别中的图片到图片的转换的方法：style transfer,CamStyle, SPGAN, PTGAN,都是在CycleGAN的基础上改进的re-ID方法。而CycleGAN只能在两个域之间转移。文章中基于StarGAN提出了 CTGAN (Multi-Camera Transfer GAN) 。CTGAN可以将图像从源数据集迁移到每个摄像机域的样式。

如下图所示
① 同一数据集中不同摄像机样式是不一样的；
② （b）中SPGAN从源数据集迁移到目标数据集，忽略了不同摄像机之间的域间隙。

Multi-Camera Transfer GAN & SPGAN.png

文中的方法只需要一个生成模型和一个鉴别模型。

StarGAN是生成对抗网络的模型。这个模型使用来自多域的训练数据以学习所有域之间的映射，它只使用一个生成器实现多域之间的样式传输。

CTGAN给模型增加了额外的约束一确保再图像迁移的过程中的行人的特征的稳定性。
① $\underline{使用源数据集上现存的标签}$ 来避免在新数据集上昂贵的数据标记成本。
②由于一旦模型在一个数据集上训练，当在另一个数据集上应用时，会引用背景噪声。故在特征学习阶段，文中引入了SCDA（Selective Convolution Descriptor Aggregation） SCDA是精准的（fine-grained）图像检索方法，可以在无监督的环境中定位主要对象，丢弃背景噪声，保留有用的深度表达。

输入图像被输入到预训练的CNN模型中，并作为卷积激活张量(tensor)被提取。行人的位置包含更深度的描述符，背景噪声被SCDA去除。然后，将选定的深度描述符作为整个图像的表示合并到SCDA特征中。------>基于此，文中提出MSCDA(Mixed Selected Descriptor Aggregation)。
为了避免SCDA过滤掉有用的深度特征，作者结合SCDA和GMP（全局最大池化特征作为图像表示。

贡献：

①在行人重识别的任务中，文中引入了CTGAN模型。与之前的两个领域相比，CTGAN将源数据集上的图像转移到目标数据集的多摄像机的样式。
②对于特征学习阶段，采用MSCDA方法，通过过滤背景噪声，保留有用的深度特征来提高精度。

baseline概述：

给定源域的注释的数据集S和来自目标域的未标记的数据集T，文中的目标是训练一个行人重识别的模型，这个模型可以很好地使用注释的源图像扩展到目标域中。

图像转换框架的步骤：
训练数据是由源数据集到目标数据集图像转换产生的，然后，训练数据用于目标域的特征学习。
从源数据集到目标数据集的图像转换。
生成器G用于以无监督的方式将带注释数据集从源域转移到到目标域，然后，一个目标域样式训练数据集G(S)就产生了。
特征学习使用包含标签的迁移的数据集G(S)来训练行人重识别的模型。特别的，我们的步骤与[1]相同。

StarGAN

我们使用StarGAN[13]来训练单个生成器G来再多个域之间进行映射。训练过程如图4所示：

图4

（CTGAN的训练步骤与StarGAN的步骤相同。(a)训练D来区分真实和虚假的图像，并对正确的域分类。(b)在目标域标签和原始图像下，G产生虚假的图像。(c)在原始域标签和虚假的图像下，G重建原始的图像。(d)G尝试产生无法区分的图像来欺骗D。）
为了实现上述，每个输入图像随机产生目标域的标记c。在此条件下，生成器G被训练来将输入图像x转换为y：G(x, c) → y。此外，还引入了一个辅助的分类器[23]，该分类器允许一个鉴别器控制多个域：

D: x→\{D_{src}(x), D_{cls}(x)\}

对抗性损失

为了区分假图像和真实图像，采用对抗性损失：
$L_{adv} = E_x[logD_{src}(x)] + E_{x, c}[log(1 - D_{src}(G(x, c)))]$ （1）
G生成图像G(x, c)
x：输入图像
c：目标域标签
D：尝试将真实图像与生成的图像区分开
$D_{src}(x)$ :鉴别器D在源上的概率分布
生成器G尝试缩小 $D_{src}(x)$ ，鉴别器D尝试增大 $D_{src}(x)$

域分类损失

对于给定的输入图像x和目标域标签c，x被传输到输出图像y和正确分类到目标域c。为了实现以上，辅助分类器 $D_{cls}(x)$ 被添加以优化真实图像的域分类损失和虚假图像的域分类损失。
真实图像的域分类损失：
$L_{cls}^{r} = E_{x, c'}[-logD_{cls}(c'|x)]$ （2）
$D_{cls}(c'|x)$ :域标签的概率分布。为了缩小它，D学会区分真实图像x所属的原始域c'。
虚假图像的域分类损失：
$L_{cls}^f = E_{x, c}[-logD_{cls}(c|G(x, c))]$ （3）
G尝试去缩小这个损失，以产生可以分类为目标域c的图像

重建损失

为了确保传输的图像与保留其原始输入图像的内容，并只更改与域相关的部分，循环一致损失被应用于生成器。
$L_{rec} = E_{x,c,c'}[||x - G(G(x, c), c')||_1]$ （4）
G接受翻译后的图像G(x, c)以及原域标签c'作为输入。然后尝试重建为原始图像x。

CTGAN

本文使用CTGAN生成新的训练样本。
给定两个行人重识别数据集，包括由M和N相机收集的图片，由不同相机收集的图片被认为是不同的域。文中使用CTGAN来对每个摄像机对的图片样式进行变换。为了确保输入和输出的一致性，即在翻译过程中保持行人的特征在不变，文中添加基于StarGAN的ID一致性以迫使生成器生成接近真实的图像。
ID一致损失：
$L_{id} = E_{x,c}[||G(x, c) - x ||_1]$ （5）
x:源域中的原始图像；
G(x, c)：在目标域标签c的情况下G产生的图像，x转移为目标域c；
文中是用L1范数作为损失函数来使转移的图片的颜色域原始图片一致；
最后对G和D进行了损失函数优化：
$L_D = -L_{adv} + \lambda_{cls} L_{cls}^r$ （6）
$L_G = L_{adv} +\lambda_{cls}L_{cls}^f +\lambda_{rec}L_{rec} +\lambda_{id}L_{id}$
其中最好的表现是在 $\lambda_{cls} = 1, \lambda_{rec} = 10$

网络构架

CTGAN改编自[13]。生成器由两个卷积层（用于下采样），6个残差块[33]，两个转置卷积层（用于上采样）组成。
我们对生成器采用实例规范化，并且不在鉴别器中使用。文中使用PatchGANs[8]作为判别器网络来区分真实网络和虚假网络。

特征学习

对于特征学习，文中使用传输的数据集G(s)来训练IDE模型。文中使用ResNet-50作为预训练模型，并将最后全连接层输出维度转换为训练数据的行人ID数。
特征学习的MSCDA方法
为了进一步提高准确度，我们引入了SCDA（selective Convolutional Descriptor Aggregation）方法，它可以减少生成的图片导致的噪声的影响。
文中基于SCDA提出了MSCDA来提取特征

MSCDA的框架

在ResNet-59，文中去除了Pool5层。在Conv5后面，使用SCDA方法和全局最大池化（GMP）来提取特征。然后两种类型的特征向量级联的最终的混合特征。

图2

如图2所示，行人的位置响应卷积特征张量的大多数通道，并且可以通过在深度方向上添加卷积特征来累积。
文中从ResNet-50模型提取图像特征图F，然后在深度方向添加特征图F（H×W×D）以得到二维特征图A（H×W×1），在这个二维矩阵中，所有元素的平均值

\overline{a}

可以计算出来。

\overline{a}

是定位物体的关键：在二维矩阵A中，比

\overline{a}

大的元素已经被训练了，比

\overline{a}

小的元素被丢弃。文中得到了与A相同大小的掩码图M（如方程式（8）所示）

M_i,j =\left\{ \begin{aligned} 0 & & if A_{i,j}>\overline{a} \\ 1 & &otherwise \end{aligned} \right. \tag{8}

如公式（9）所示，当

M_{i,j} = 1

时，文中将描述符保留在F中。

$F_1 = {F|M_{i,j} = 1} \tag{9}$

此外，由于卷积特征是从Con5提取出来的，文中也使用GMP来获得一个2046维的特征向量，并串联为之前获得的特征向量，最后得到了一个4096维的特征向量作为最后的图像表示。

实验结果

image.png

自我总结：

文中解决的问题是，在一个数据集上训练的模型无法再另一个数据集上工作的问题。
文中主要的创新：
①基于SCDA的基础上提出MSCDA；
②结合MSCDA和GMP；
③改编了CTGAN;

[1] L. Zheng, Y. Yang, A.G. Hauptmann, Person re-identification: past, present and future, 2016. arXiv preprint arXiv:1610.02984.
[8]J.Y. Zhu, T. Park, P. Isola, A.A. Efros, Unpaired image-to-image translation using cycle-consistent adversarial networks, in: IEEE International Conference on Computer Vision, IEEE Computer Society, 2017, pp. 2242–2251.
[13] Y. Choi, M. Choi, M. Kim, J. Ha, S. Kim, J. Choo, StarGAN: unified generative adversarial networks for multi-domain image-to-image translation, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 8789–8797.
[33]K. He, X. Zhang, S. Ren, J. Sun, Deep residual learning for image recognition, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 770–778.