使用上下文对抗生成网络的人脸老化
摘要:
人脸老化——它对于输入的人脸给出老化的人脸——在多媒体研究中具有广泛的关注。最近很多基于条件对抗生成网络的方法取得的巨大的成功。他们可以生成图片拟合在每个单独的年龄组中的真实的人脸分布。但是这些方法不能获取到转换模式,比如说在相邻年龄组之间逐渐的形状和纹理的变化。本文中我们提出了一种新的上下文对抗生成网络(C-GANs)来特别地考虑转换模式。C-GANs由一个条件转换网络和两个分辨网络组成。条件转换网络使用几个特别设计的残差块来模拟老化过程。年龄分辨网络引导合成的人脸来拟合真实的条件分布。转换模式分辨网络是新的,旨在将真实的转换模式同假的区分出来。它被当做条件转换网络的额外正则项,来确保生成的图片拟合了对应的真实转换模式的分布。实验结果表明提出的框架与最先进的模型和真实的数据相比较,产生了感人的结果。我们也观察到对于跨年龄人脸确认问题的性能提升。
关键词:人脸老化,对抗生成网络,上下文模型
原文地址:https://arxiv.org/abs/1802.00237
文章中采用的是一个双分辨器单生成器的条件GAN的模型,其模型结构如下所示:
两个分辨器分别是分辨图片真伪的分辨器文中称作Age Discriminative Network,对应文章的3.3小节;分辨转换模式的分辨器文中称作Transition Pattern Discriminative Network,对应文章的3.4小节。一个生成器为条件GAN的类型,文中称作Conditional Transformation Network。
1.Age Discriminative Network
该分辨网络接收图片和对应年龄标签作为输入,输出判断该图片是否为伪造的结果。文中指出,年龄的标签和图片分别单独经过一次卷积,然后再连接在一起,送入该分辨网络。该网络的训练的loss为:
2.Transition Pattern Discriminative Network
该网络接收的是相邻年龄的图片对和年龄标签作为输入,令x(y)表示年龄为y的图片x,那么该网络接收的是(x(y),x(y+1),y)三元组作为输入,而图片x可能全部是真实图片,也可能是生成的图片,最终该网络判断给出该图片对,是否为真实的图片对。因而,该网络的训练的loss为:
- Conditional Transformation Network
该网络接收人脸图片,以及需要生成的人脸图片的年龄标签。年龄标签为7维的向量,然后被扩充到与图片的空间维数一致(我的理解是,对于RGB图片,是宽长3,因而这样的图片对应的label也是3维的),同时标签中0被-1表示,原因是图片的数值范围是在[-1,1]区间范围内。与此同时,该生成器采用了残差网络的设计,最终的图片是特征图和原图结合起来生成的,具体的结构图下图所示,这样估计可以保证生成图既有feature和label的信息,同时也有原图的信息。
最终,整个网络的训练的Loss为:
这里的TV就是total variation的损失函数,用来平滑生成的图片的,见诸多篇论文中。对于这样的双分辨器,单生成器的网络架构,文章采用的是交替训练的方法,一次迭代中优化一个分辨器和生成器,另一次迭代中优化另一个分辨器和生成器。
实验部分
实验分成了定性的评估和定量的评估,定性的评估主要是以生成的图片,来给出一个直观的判断;同时也做了与一些明星ground truth的定性的比较分析。
定量的评估,设计了一个人评估的系统,给出三种生成图片,以此判断哪张结果最好。首先这个评估结果,虽然是量化分析,但是依旧是人评价的系统,带有一定主观性(不过现阶段很少有对于GAN生成图片好坏的评价指标,有些量化的指标也被指出不准确);其次文中并没有详细说明给志愿者判断的问题的内容描述部分。
最具有说服力的定量分析,应该文中4.6小节给出的cross age face verification,实验的过程是,对于原始的图片对,是一张年轻的人脸和老年的人脸,这两张人脸之间年龄大于20;生成的图片对是,用原始图片对中年轻的人脸生成一张老龄化的人脸,然后与之前老化后的人脸组成生成图片对,采用基于center loss训练的人脸识别模型,来判断这样的人脸对是否属于同一个人。从实验的EER(the equal error rate)中可以看到这样的face aging模型生成的图片确实对于跨年龄的人脸识别有帮助,同时该方法的帮助最大。Figure11给出了FAR-FRR曲线,同一分类曲线下,不同数据对的FAR-FRR曲线,这表明了数据起了决定性作用,可以看到红色和绿色都比原始的图片对的蓝色曲线都低(这里估计有个小问题需要去查center loss based face verification那篇文章,就是FAR-FRR曲线中的接受率的阈值)。
最终总结下这篇文章的工作:首先采用的是之前有人提及的双分辨器的GAN网络结构(在之前论文中被称作双代理GAN),但是在整体架构没有创新的情况下,在生成器中采用了残差网络的结构,这是之前GAN结构中没有看到过的(至少我没有看到过);其次是对于分辨器的创新,对于人脸老化的特定问题中,图片对中存在关系的原因,将有关系的图片对交给分辨器判断,以促进生成器学习到此类的相互关系,这种图片关系对的思路应该还可以应用于其他生成图片应用中;label归一化以及卷积处理是之前GAN的论文中没有看到过的处理,可能有利于生成器同时使用图片信息和输入的label信息;关于实验部分,现在仍然没有很好的定量分析GAN生成图片的方法,一般还是具体问题中,转换形式来进行判别,比如本文中的生成的图片提升了人脸识别率的对比。