StarGAN——生成你的明星脸

1 GAN 介绍

GAN,叫做生成对抗网络 (Generative Adversarial Network) 。其基本原理是生成器网络 G(Generator) 和判别器网络 D(Discriminator) 相互博弈。生成器网络 G 的主要作用是生成图片,在输入一个随机编码 (random code) z后,自动的生成假样本 G(z) 。判别器网络 D 的主要作用是判断输入是否为真实样本并提供反馈机制,真样本则输出 1 ,反之为 0 。在两个网络相互博弈的过程中,两个网络的能力都越来越高:G 生成的图片越来越像真样本,D 也越来越会判断图片的真假,然后我们在最大化 D 的前提下,最小化 D 对 G 的判断能力,这实际上就是最小最大值问题,或者说二人零和博弈,其目标函数表达式:

image.png

其中表达式中的第一项 D(G(z)) 处理的是假图像 G(z) ,我们尽量降低评分 D(G(z)) ;第二项处理的是真图像 x ,此时评分要高。但是 GAN 并不是完美的,也有自己的局限性。比如说没有用户控制的能力和低分辨率与低质量的问题。

为了提高 GAN 的用户控制能力,人类进行了一些列的探索研究。比如 Pix2Pix 模型采用有条件的使用用户输入,使用**成对的数据 (paired data) 进行训练; CycleGAN 模型使用不成对的数据 (unpaired data) **的就能训练 。但无论是 Pix2Pix 还是 CycleGAN ,都是解决了从一个领域到另一个领域的图像转换问题。当有很多领域需要转换时,对于每一个领域转换,都需要重新训练一个模型去解决。目前,存在的模型处理多领域图像生成任务时,学习 k 个领域之间所有映射就必须训练 k * (k-1) 个生成器。如果训练一对一的图像多领域生成任务时,主要会导致两个问题:

  • 训练低效,每次训练耗时很大。
  • 训练效果有限,因为一个领域转换单独训练的话就不能利用其它领域的数据来增大泛化能力。


    image.png

上图中 (a) 模型说明如何训练 12 个不同生成器网络以达到 4 个不同领域图像之间转换任务。很明显每个生成器不能够充分利用整个训练数据,只能从 4 个领域中 2 个领域相互学习,这样就会生成图片质量不好。而上图(b)中的模型就可以解决这些问题,该模型接受多个领域训练数据,并仅使用一个生成器来学习多领域图像之间映射关系。根据模型的长相将该模型称为星形网络,外文名就是 StarGAN 。


image.png

上图是根据 StarGAN 模型训练出的效果。在同一种模型下,可以做多领域图像之间的转换,比如更换头发颜色、更换表情、更换年龄等。

2 StarGAN模型及其优点

2.1 starGAN介绍

image.png

上图是对 StarGAN 的简单介绍,主要包含判别器 D 和生成器 G 。(a)D 对真假图片进行判别,真图片判真,假图片判假,真图片被分类到相应域。(b)G 接受真图片和目标域标签并生成假图片;(c)G 在给定原始域标签的情况下将假图片重建为原始图片(重构损失);(d)G 尽可能生成与真实图像无法区分的图像,并且通过 D 分类到目标域。

2.2 StarGAN 优点

  • 提出 StarGAN 网络模型,仅使用一个 G 和 D 就可以实现多个领域之间图像生成和训练。
  • 采用 mask vector 方法控制所有可用域图像标签以实现训练集之间的多领域图像转换。
  • StarGAN 相对于基准模型, 在面部属性转移和面部表情合成的任务中有更好的效果 (具体数据请参看原论文中的实验部分)

3 StarGAN

首先描述 StarGAN 网络,在一个数据集中进行多领域的图像转换任务;然后我们讨论了如何使 StarGAN 能合并包含不同标签的数据集以及对其中任意的标签属性灵活进行图像转换。

3.1 多领域图像转换

训练一个生成器 G ,能够多领域映射。将带有领域标签 c 的输入图像 x 转换为输出图像 y,即
image.png

。随机生成目标领域标签 c 使得 G 能够灵活的转换输入图像,同时使用 D 控制多领域。这样 D 就在图像源和域标签上产生概率分布,即
image.png
3.1.1 对抗损失函数 (Adversarial Loss)

使用对抗损失函数提高生成图像质量,达到 D 无法区分出来输出图像和生成图像之间的差别:
image.png

根据输入图像 x 和目标领域标签 c ,由 G 生成输出图像
image.png

,同时 D 区分出真实图像和生成图像。将
image.png

作为输入图像 x 经过 D 之后得到的可能性分布。生成器 G 使这个式子尽可能的小,而 D 则尽可能使其最大化。
3.1.2 目标域分类损失函数(Domain Classification Loss)

对于一个输入图像 x 和目标分布标签 c ,我们的目标是将 x 转换为输出图像 y后能够被正确分类为目标分布 c 。为了实现这一目标,我们在 D 之上添加一个辅助分类器,并在优化 G 和 D 时采用目标域分类损失函数。简单来说,我们将这个式子分解为两部分:一个真实图像的分布分类损失用于约束 D ,一个假图像的分布分类损失用于约束 G 。其表达式如下所示:
image.png

其中,
image.png

代表 D 计算出来的领域标签的可能性分布。一方面,通过将这个式子最小化, D 将真实图像 x 正确分类到与其相关分布 c' 。另一方面,假图像的分类分布的损失函数定义如下:
image.png

即 G 使这个式子最小化,使得生成的图像能够被 D 判别为目标领域 c。
3.1.3 重构误差(Reconstruction Loss)

通过最小化对抗损失和分类损失, G 训练生成的图像尽可能与真实图像一样,并且能够被分类到正确的目标领域。然而,最小化这两个损失函数不能保证 , 转换后的图像中,只改变领域差异的部分, 而保留输入图像中的其他内容 。故对 G 使用循环一致性损失函数 (cycle consistency loss) ,如下:
image.png

其中: G 以生成图像 G(x,c) 以及原始输入图像领域标签 c' 为输入,努力重构出原始图像 x 。我们选择L范数作为重构损失函数。注意到我们两次使用了同一个生成器,第一次将原始图像转换到目标领域的图像,然后将生成的图像重构回原始图像。

3.1.4 总体损失函数表示(Full Objective)

最终 G 和 D 的损失函数表示如下:
image.png

image.png

其中
image.png

image.png

是控制分类误差和重构误差相对于对抗误差的相对权重的超参数。在所有实验中,我们设置
image.png
3.1.5 改进损失函数

为了 GAN 训练过程稳定,生成高质量的图像,论文中采用自定义梯度惩罚来代替对抗误差损失:
image.png

其中:
image.png

表示真实和生成图像之间均匀采样的直线,试验时
image.png

3.2 多数据集训练

starGAN 的一个重要优势在于它能够同时合并包含不同标签的不同数据集,使得其在测试阶段能够控制所有的标签。从多个数据集学习的问题在于标签信息对每一个数据集而言只是部分已知。在 CelebA 和 RaFD 的例子中,前一个数据集包含诸如发色,性别等信息,但它不包含任何后一个数据集中包含的诸如开心生气等表情标签。这会引起问题,因为在将 G(x,c) 重构回输入图像 x 时需要完整的标签信息 c' 。

3.2.1 向量掩码(Mask Vector)

为了缓解这一问题,我们引入了向量掩码 m,使 StarGAN 模型能够忽略不确定的标签,专注于特定数据集提供的明确的已知标签。在 StarGAN 中我们使用 n 维的 one-hot 向量来代表 m ,n 表示数据集的数量。除此之外,我们将标签的同一版本定义为一个数组:
image.png

其中:[·]表示串联,其中 c表示第 i 个数据集的标签,已知标签 c 的向量能用二值标签表示二值属性或者用 one-hot 的形式表示多类属性。对于剩下的 n-1 个未 i 知标签我们简单的置为 0 。

3.2.2 训练策略

利用多数据集训练 StarGAN 时,我们使用上面定义的
image.png

作为生成器的输入。如此,生成器学会忽略非特定的标签,而专注于指定的标签。除了输入标签
image.png

,此处的生成器与单数据集训练的生成器网络结构一样。另一方面我们也扩展判别器的辅助分类器的分类类别到到所属聚集的所有标签。最后,我们将我们的模型按照多任务学习的方式进行训练,其中,判别器只将已知标签相关的分类误差最小化即可。

3.3 训练数据处理

以 celebA 数据为例,下载后的数据包括 label 文件和图像。

  • 文件的第一行为图像的总数:202599。
  • 第二行为数据处理的类别,共 40 种,如下:

(1, '5_o_Clock_Shadow'), (2, 'Arched_Eyebrows'), (3, 'Attractive'), (4, 'Bags_Under_Eyes'), (5, 'Bald'), (6, 'Bangs'), (7, 'Big_Lips'), (8, 'Big_Nose'), (9, 'Black_Hair'), (10, 'Blond_Hair'), (11, 'Blurry'), (12, 'Brown_Hair'), (13, 'Bushy_Eyebrows'), (14, 'Chubby'), (15, 'Double_Chin'), (16, 'Eyeglasses'), (17, 'Goatee'), (18, 'Gray_Hair'), (19, 'Heavy_Makeup'), (20, 'High_Cheekbones'), (21, 'Male'), (22, 'Mouth_Slightly_Open'), (23, 'Mustache'), (24, 'Narrow_Eyes'), (25, 'No_Beard'), (26, 'Oval_Face'), (27, 'Pale_Skin'), (28, 'Pointy_Nose'), (29, 'Receding_Hairline'), (30, 'Rosy_Cheeks'), (31, 'Sideburns'), (32, 'Smiling'), (33, 'Straight_Hair'), (34, 'Wavy_Hair'), (35, 'Wearing_Earrings'), (36, 'Wearing_Hat'), (37, 'Wearing_Lipstick'), (38, 'Wearing_Necklace'), (39, 'Wearing_Necktie'), (40, 'Young')

  • 第三行及之后的每行为,图像名,已经对应的 40 种类别的 label , label 值为 1 或 -1。

000001.jpg -1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 1 -1 -1 -1 -1 -1 -1 1 1 -1 1 -1 -1 1 -1 -1 1 -1 -1 -1 1 1 -1 1 -1 1 -1 -1 1

4 总结与展望

通过本文学习,您应该初步了解 StarGAN 模型的网络结构和实现原理,以及关键部分代码的初步实现。如果您对深度学习 Tensorflow 比较了解,可以参考 Tensorflow版实现starGAN;如果您对pytorch框架比较熟悉,可以参考 pytorch实现starGAN;如果您想更深入的学习了解starGAN原理,可以参考 论文

如果想体验项目效果,您可以登陆 Mo 平台,在 应用中心 中找到 StarGAN,可以体验以下五种特征['Black_Hair', 'Blond_Hair', 'Brown_Hair', 'Male', 'Young'] 的风格变换。考虑到代码较长,我们在StarGAN 项目源码中对相关代码做了详细解释。您在学习的过程中,遇到困难或者发现我们的错误,可以随时联系我们。

5 参考资料

1.论文:https://arxiv.org/pdf/1711.09020.pdf <br />2.博客:https://blog.csdn.net/stdcoutzyx/article/details/78829232<br />3.博客:https://www.cnblogs.com/Thinker-pcw/p/9785379.html<br />4.pytorch原版github地址:https://github.com/yunjey/StarGAN<br />5.tensorflow版github地址:https://github.com/taki0112/StarGAN-Tensorflow<br />6.Celeba数据集:https://www.dropbox.com/s/d1kjpkqklf0uw77/celeba.zip?dl=0


Mo(网址:momodel.cn)是一个支持 Python 的人工智能在线建模平台,能帮助你快速开发、训练并部署模型。


Mo 人工智能俱乐部 是由网站的研发与产品设计团队发起、致力于降低人工智能开发与使用门槛的俱乐部。团队具备大数据处理分析、可视化与数据建模经验,已承担多领域智能项目,具备从底层到前端的全线设计开发能力。主要研究方向为大数据管理分析与人工智能技术,并以此来促进数据驱动的科学研究。

目前俱乐部每周六在杭州举办以机器学习为主题的线下技术沙龙活动,不定期进行论文分享与学术交流。希望能汇聚来自各行各业对人工智能感兴趣的朋友,不断交流共同成长,推动人工智能民主化、应用普及化。

双二维码.png
双二维码.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容