李宏毅2018GAN笔记 (二) Conditional Generation

李宏毅对抗生成网络(GAN)国语教程(2018):

https://www.bilibili.com/video/av24011528?from=search&seid=13805566188303016426

课件:

http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html


上一节中提到的GAN模型都是输入一个分布(随机采样的一维向量)输出一个张量,这个张量可以是图片可以是语音可以是视频。这一节着重讨论 Conditional Generation,也就是给定条件的生成。

在Conditional Generation 中我们会给定一个Condition,比如模型输入中给定的Condition是猫,则模型会输出猫的图片;Condition是狗则输出狗的图片。

Conditional Generation GAN 也分为有监督和无监督的模型架构。我们先来看有监督的架构。


1.Supervised Conditinal Generation

对于有监督的条件生产模型,我们先来看一下传统的模型:


传统模型

如图这是一个Text-to-Image的模型,即模型输入文本输出图片。在传统的有监督生成模型中,我们需要大量的图片和文本的配对作为训练样本,文本作为模型的输入而对应的图片则作为损失函数的组成(如生成图片和样本图片的L1或L2 loss)。
同时传统的有监督生成模型的缺点是,生成的图像会很模糊。比如图中的火车有正面的图像和侧面的图像,生成的图像可能是正面和侧面中和的一个模糊的图像(模型在训练时期望获得的结果是多张图像的平均)。


有三种可能的配对

Conditional GAN的模型输入除了向量z外还需要输入一个condition,如图中的train火车(一般会转换为向量)。同时因为有三种可能的配对判别器D相应的判分项又多了一项,对应下图中需要提升的得分函数V有三项。


算法流程
判别器

Conditional GAN的判别器架构常见的有图中两种,图上方的结构中只有一个输出,图下方有两个输出分开判别图像是否逼真以及图像是否和condition能配对。最近看的一些用GAN做anomaly detection 以及BiGAN的文章似乎就是图下方的这种结构。李宏毅认为图下方的结构比较合理,但是上方的结构更常用。

image to image
image to image

之前举的是text to image 的例子,现在我们换一个image to image 的例子,其实原理都是一样的只是condition从text换成了image,同样传统有监督学习的模型会产生模糊的图片。这里GAN产生的图片会和输入的抽象图片在一些特征上可能有所区别,所以如果我们在训练生成器时,除去获得判别器较高的评价,再加上减小项重构损失(生成图像和输入抽象图像的距离损失)的话,会得到更好些的结果(GAN+close)。

Patch GAN

同时在image to image的paper中,判别器用到了patch GAN 的设计即判别器一次只输入部分的图片而不是一次把整一个图片输入,以减小参数量维护训练的稳定性。

语音去噪
视频生成

再举两个别的生成目标的例子,其实原理都是一样的。语音去噪中判别器要吃两个张量判别是不是匹配,视频生成里判别器需要将生成器的输入和输出一起输入。

Stack GAN

在有监督Conditional GAN的最后放一篇有趣的paper的思想。Stack GAN的思想就是先产生低分辨率的图片,再用低分辨率的图片产生高分辨率的图片。注意区别图中的Text Embedding 产生的φ和Conditioning Augmentation 产生的 C。


2.Unsupervised Conditinal Generation

Unsupervised

区别于之前有监督的生成,无监督的方法不需要匹配的样本(无标签)。无论在图像还是语音还是其他场景,风格迁移是其一种应用。

常见方法

Unsupervised Conditinal Generation的常见方法有两类,一类是用传统的生成器直接转化生成。另一类是在生成器中加入auto-encoder。

直接转换

2.1Direct Transformation

直接转换的原理很简单,生成器从X的分布生成图像后由判别器来判断生成图像是属于X分布还是Y分布。但是只是简单地这样做可能会存在一个问题,即生成的图像虽然属于Y分布但是和输入图像没有联系。

DTN

所以一种做法就是引入预训练的网络如vgg,训练生成器时加上一个约束。

Cycle GAN

Cycle GAN的思想类似,即加了一个Cycle consistency即图像重构约束,确保中间生成的图像与输入有关最后能够重构回输入图像。

撞车.jpg

同期不同会议的几种GAN,其实思想是一样的。

StarGAN

把Cycle GAN的思想推广到多个分布之间转换,即Star GAN。需要注意的是Star GAN 是共用一个生成器。

StarGAN

Star GAN 中判别器除了要判别图像是否是生成的,还需要输出图像的分布类别。生成器除了输入图像还需要输入图像的分布类别。

StarGAN

如图先训练判别器,让判别器能够分辨图像是否是生成的并且能正确分类非生成图像的类别信息( 见(1) )。

接着训练生成器。生成器输入图像及分布(紫色的Mask vector作用为掩码,图中01即代表不考虑黄色标签,考虑绿色标签),需要将图像转换为开心(0 0 1 0 0)分布的图像,并且骗过判别器让判别器认为产生的图片是真实的不是生成的(这里我觉得课件上标错了判别器输出的应该是(0 0 1 0 0)开心的分布)。而从重构中我们可以看出图像原本为生气(1 0 0 0 0)的分布,用同一个生成器需要将图像还原回去作为Cycle consistency。

2.2Projection to Common space

除了上述的方法,我们还可以通过将输入的图像编码再解码的方式来完成风格迁移。
常见问题

如图,X分布为三次元头像Y分布为二次元头像。编码器将输入图像编码为潜在向量,潜在向量是图像特征的体现。再由解码器重构图像,同时加入最小化重构损失和判别器对抗训练。然而这样的做法存在的问题是,由于X分布的auto-encoder和Y分布的auto-encoder是分开训练的,所以这两个分布的自编码器(auto-encoder)对潜在变量的解读不同。比如对于X的自编码器的解释规则可能是第一个元素代表性别,第二个元素代表是否有眼镜,而Y的自编码器的解释则为第一个元素代表是否有眼镜第二个元素代表性别。会产生图中这种输出图像和输入图像不太匹配的情况。

Couple GAN

一种解决方法是编码器的最后几层和解码器的前几层共享参数。这样的方法可以让X和Y的自编码器对潜在变量有同样的解释规则。

秒啊

一种解决方法是在潜在变量处加上一个判别器,通过训练让判别器无法分辨处潜在变量来自X分布还是Y分布。这样来训练即可以确保X编码器输出和Y编码器的输出有相同的分布,即图中三次元头像和二次元头像有着相同的特征。


秒啊X2

还可以让输入图像按照图中的流程输入输出最后计算重构损失,即加入Cycle Consistency 这就是ComboGAN。


秒啊X3

类似的思路还可以最小化潜在变量的距离来训练。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容