github:https://github.com/yxgeee/FD-GAN pytorch
abstract:
问题:姿态变化
常用办法:human alignment ;learn human-region-based representation
缺点:需要额外计算姿态信息
本文:提出Feature Distilling(蒸馏) Generative Adversarial Network,学到的特征是identity-related且pose-unrelated。
2 related work:
[18]中提出了以合成任意姿势的人物图像
3 Feature Distilling Generative Adversarial Network
FD-GAN采用了双胞胎网络,包括一个图片编码器,一个图片生成器,一个ID 判别器 ,一个姿态判别器。对于网络的每一个分支,输入是一个行人图片+一个目标姿态landmark map。图片编码器将图片准成特征。identity verification 分类器指导特征的生成。然鹅,只使用identity verification 分类器会使编码器不仅编码了行人ID信息,还编码了行人姿态信息,导致学到的特征对于姿态比较敏感。为了使其对姿态具有鲁棒性,我们增加了一个图片生成器,它以编码器的特征和目标姿势图为条件。我们的假设是,如果学到的特征是Pose-related和identity-related,就可以用来生成同一个不同姿态的图片。身份判别器和姿态判别器集成在一起以规范图像生成过程。它们都是conditional discriminator,即只判别fake or true,而不是判别到底是哪个人或者哪个姿态。网络促使图像生成器与图像编码器一起用伪造的图像欺骗鉴别器。本文还利用双胞胎结构来最小化两个分支的假图像之间的差异,提出了相同姿势损失 same-pose loss,进一步从输入图像中提取与姿势无关的信息。inference时,只使用图片编码器得到特征,不再使用额外的姿态信息。
3.1 Image encoder and image generator
E和G的结构如Fig3.(a)所示。输入图片,E使用resnet-50作为骨干网络将其编码成2048维的特征向量。将特征向量和目标姿态图送入G,生成此人在目标姿态下的图片。目标姿态图是一个18通道的map,每个通道表示一个姿态点的位置,可将其转为类似高斯的热图。通过一个5-block Convolution-BN-ReLU的子网络将其编码成一个128维的姿态特征向量。视觉特征、目标姿态特征、额外的256维度的噪声向量(从标准高斯分布采样得到)被拼接在一起,输入一系列的5 convolution-BN-dropout-ReLU upsampling blocks,得到生成图片。
3.2 Identity verification classifier
设输入两张图片的特征为,表示网络输出的置信度,loss为二元交叉熵损失:
其中C是ground truth,C=1表示是同一个人。
3.3 Image generation with identity and pose discriminators
Identity discriminator 是用来判断是否生成的图片跟输入图片是相同的人。图片生成器想要欺骗身份判别器来确保视觉特征包含足够的identity-related 信息。身份判别器跟身份分类器的结构是相似的Fig3.(c)。但是它的resnet-50网络跟E中的resnet-50网络不共享参数,因为的目的是区分real/fake,而E的目的是学到姿态无关的特征。它俩之间具有domain gap。设输入图片为,生成图片为,表示与输入图像具有相同身份的另一姿态的真实图像,的对抗损失为:
其中分别表示真实的数据分布和生成数据分布。
Pose discriminator
区分生成图片是否跟目标姿态匹配,如Fig3.(d)所示。它使用了PatchGAN的结构。输入图片和姿态图首先在通道维度拼接在一起,然后经过4 convolution-ReLU blocks 和 一个 sigmoid函数来得到一个0到1之间的姿态匹配map。此map中的每个位置表示输入图片和每个Landmark的匹配度。图片生成器G尝试欺骗姿态判别器,的对抗损失为:
然鹅我们观察到,姿态判别器可能会过拟合姿态信息,即它会记住特定姿态以及行人外观之间的相关性,因为每个图片的姿态通常是独特的。比如,if we use a blue-top person’s pose as the target pose, the generated image of a red-top person might end up having blue top.为了解决这个问题,我们提出了一种pose map augmentation scheme。训练时,对每个landmark,它的一通道Gaussian-like heat-map是在某个特定范围内的随机高斯带宽获得的。通过这种方式,我们可以为相同的姿势创建许多姿势贴图,并缓解姿势过度拟合问题。
Reconstruction loss.
G不仅是用来迷惑判别器的,也是为了生成图片。然而只使用判别器无法确保生成human-perceivable(可感知的) images。因此使用一个重构误差来最小化生成的图片与真实图片的L1之差,
[18] Ma, L., Jia, X., Sun, Q., Schiele, B., Tuytelaars, T., Van Gool, L.: Pose guided person image generation. In: NIPS. (2017) 405–415