GAN原理"潜"析

为了后面介绍seqGAN + RL的应用,先来介绍一下这个很火的GAN,火到似乎女娲上帝都是“干”出来的...
稍提一点背景。统计机器学习中,这个世界是从分布中抽样产生的(假设P(world)是产生这个世界的分布,那这个世界的每一个东西都是从P里面iid抽出来的),我们只要能拿到这个分布,就可创建一个"真实"的世界!那怎么拿到这个分布呢?建模!一般是参数模型,当世界为无穷维的就是非参数模型。(也就是说产生世界的分布还依赖于其他分布,比如产生宇宙的分布,宇宙依赖于....贝叶斯学派喜欢搞复杂)。很幸运!我们有概率论来表示这些分布,有测度论来衡量他们的大小(除了连续空间中很小的边边角角的地方measure zero),然后又知道NN只要足够多参数(节点),可以几乎拟合任何函数!到这了,是不是觉得我们已经可以创造世界了?!(扯得有点多了。大家也知道,其实问题很多,这里先不讲了,下面会提到一些)
再说一点大家都明白的就是,世界分布其实也是不知道的,所以我们也不能通过积分逼近它,最通用的就是采样了,然后通过MLE或者minimize cross-entropy(KL散度,衡量分布的差异)
那先来浅析一下GAN,讲讲这个是干嘛的。
其实上面也说了,他就是个生成模型,可以产生数据,比如一首歌,一张图,一首诗,但更希望产生"真"的数据!可以产生数据的模型其实很多,比如auto-encoder(AE),经典之作VAE,通过decoder的部分就可以产生数据,但是有一个问题是,他们不是真的产生数据,只是让input和output一样,以下列举了生成模型的方法和AE,VAE,资料很多

Generative Model Family

AE
VAE

那么GAN就是用来产生真实数据的!他的能力是通过进化得来的!举个通俗栗子(老王造假币,警察打假)说明下GAN是怎么演化的。老王想造假币谋生,一开始他造的假币很快就被警察实习生识破了;然后老王回去研究一顿之后造出来的假币,实习生分辨不出来了,但是被小警员给识破了;老王回去又开始研究,骗过了小警员;但被警司给识破了....反复研究识破,最后老王造的假币警察已经识别不出来了,和真的一样!这就是GAN的很直观的原理,其中造假币的老王叫generator,警察叫discriminator他们两个不断博弈对抗,最后让generator学会了以假乱真,达到所谓的纳什均衡

具体到模型上,就是第一代的generator v1(G1),产生的数据,喂给discriminator v1,被轻易地的分辨出来G1产生的是假的,(初始化一个G,产生n个随机数喂给G1产生n张图(target 0)后,从真实数据中取n张图为真实数据(target 1),然后喂给D1训练);G2要变强骗过D1(固定D1,更新G1的参数,使其产生的数据的标签为1),然后D1也要进化为D2,可以辨别G2产生的假数据(G2产生的数据标签为0再训练)..... 最后我就得到了一个世界上最强的G和一个世界上最强的D!你不会问我以我的G来骗我的D会怎么样呢!(一会告诉你)

intuition process of GAN

浅析之后是不是要"潜"析一下了!(公式编辑是很累哦。。还是上图吧)

这说明MLE等价于最小化KL divergence,这种divergence衡量了两个分布的差异。前面也提到NN的特性,可以拟合复杂的函数,那如何用NN产生分布呢?分布的函数还是一个分布,输入一个分布到NN即可!(比如你可以输入一个正太分布等)这好像似乎没GAN什么事。。
那我们来看一下产生一个x的概率,通过上面的方法

Z是我们输入的分布,G是NN很复杂,我们是没办法计算这个的likelihood,也就说到这里我们就卡住了,那算不了likelihood我们怎么来调参?!GAN(干!不会弄公式输入真的很僵!)
终于到了GAN了,先来介绍一下GAN的原理


generator和discriminator可以是任何函数,只是现在都用NN而已,G也是和原理一样通过一个先验分布产生复杂分布,D也差不多,output一个scalar来衡量差异。现在出现了一个V(G,D),通过它可以得到我们要的G!那就来讲讲它吧


先不谈这个怎么来的,但这个看起来很直观对吧。第一个式子x 从真实数据中sample来,那D给他打分高(true data),第二个式子x从G中sample来就给他打分低(false data),也就是-D(x)要高,假设现在有一个G,我们要找一个D来maximize V,这样才是一个合格的Discriminator!


是不是很惊!用D来maxmize V(G,D)得到的竟然是真实分布和生成分布的差异!(Divergence),既然有了衡量差异的东西,那接下来很自然就是调节G的参数来最小化这个差异就好了,也就是上上上图中最后一个式子!顺便说一下JSD取值为[0,log2],当两种分布重合的时候JSD=0
好了,那现在就可以解这个argmin max V(G,D),来得到G,损失就是max V(G,D),用GD就可以解啦(max过程可以用抽样来做)
这里提一点比较小的问题,回想一下上述步骤,我们假设先有一个G然后找一个D得到max(V)(也就是真实和生成的差异),再来调节G找到差异最小的那个G;这时候G跟新了,那D应该重新找最大,顺应G也应该重新调整参数来找最小差异的分布,但这个新的分布一定比上一个分布的差异小么?其实也就如同机器学习设定学习率类似,所以实际编程的话,我们尽量小步或者少次更新G不过好像作者Goodfellow并不在乎这个(这名字老板一定喜欢!)
这里稍微提一下实际操作过程,因为我们不可能做V里面的积分,还是sample的方法

是不是很眼熟,一般二分类器的就是在maximize它!比如逻辑回归等。

贴一张具体算法,很清晰有木有!刚才有提到G的更新要小(次数少或者步长小)!D过程迭代多次是因为数值计算不可能一次找到最大值,每次其实是在找lower bound,多迭代几次可以找的尽可能大的

更新G的时候因为第一项和G无关,就可以不要,但是在实际操作中还有一点不一样的地方,就是V

如果用原始的V,由于开始G产生的数据比较假,会使D(x)值比较小(log(1-D(x))),从图中也可以看出来,D(x)值小对应的梯度也是比较小,会导致在开始训练的时候很慢,改进之后的损失保证了和原来的同样趋势的同时,解决了这个问题,开始训练比较快,之后训练比较慢(-log(D(x)))。这样比较符合一般训练的感觉(其实这个loss是个比较奇怪的Divergence,是KLD - 2JSD,但是有一个在操作上的好处是,写成这样等同于是让G产生的data 作为Discriminator的positive的sample!细节就不说了)

再稍微提一个地方!(来解释一下最强的D和G谁更厉害)先摆一张图来自Martin的Towards Principled Methods for Training Generative Adversarial Networks, 2017

Martin Arjovsky, Leon Bottou, Towards Principled Methods for Training Generative Adversarial Networks, 2017

D的loss是用来衡量JSD(JS Divergence)的,可以根据JSD来调G,但是这是理想的状况。实际上如上图,D的loss都趋近于0,也就是准确率为100%,这篇paper告诉我们G train 25个epoch时,G已经很强了(他产生的图已经很真实了),但是你会发现,这时trian一个D时,它一眼就可以分辨出来!是否是说D更厉害呢?为什么D的loss会趋近于0呢,这不是说明JSD没有给我们什么作用呢?(图上表示很快就趋近于0了!)

  • 我们没办法做上面的积分,只能用sample的方法,sample的数据,就算G生成的数据和真实数据有重叠,但因为sample的数据,总可以用一个powerful的D找到一个分类面把他们完全分开那一个办法是限制住D,让它不要过拟合;但是,其实D可以量出JSD的前提是D的capacity是可以输出任何值,也就是要它很powerful!这就出现了奇妙的矛盾,一方面实际操作上要它弱一点,另一方面从理论角度又希望它强一点
  • 现在从data的本质上解释,我们的data都是高维空间的manifold(实际data和G产生的data),这样其实data的交际是很小的,这样算出来的divergence就是log2,这会造成什么问题呢?

前面提到GAN的类似演化的过程,变得越来越好!让G产生的data和真实的越来越近,但是让计算机必须要让这个距离越来越小,但是量出来的都是log2...就没有动力进化。。。怎么解决这个问题呢!(WGAN!!!下次讲,这个是重点!!)

那先讲个trick

  • 增加噪声
    让低纬的manifold变宽,可能就有overlap,D就没有办法完全分开,但是noise要不断变小,减少干扰(这是操作上应该考虑的)

另一个问题 Mode Collapse
也就是只产生一个mode,比如产生数据只能产生一种形式,比如只会画狗,但是我们其实不知道他不会干什么。。(尴尬了吧)也就是说G只会针对一个mode调参,Goodfellow原来以为是原因是原先的loss设定(divergence)有问题,最初提到的MLE也就是loss是KLD,但是我们实际是上在minimize reverse KL Divergence,我们来看下图

这里就举例为什么会有mode collapse。我们来看reverse KL,在什么时候它取值会很大?就是真实数据不存在的时候,也就是G产生不像真实数据时,就会产生很大的loss,这时候它不会冒险产生新图,它宁愿保守的产生固有的某个图(Mode)!(KL情况类似分析即可) GoodFellow说我们是可以直接用KL divergence,但是也不会完全解决这个问题

好啦,这次就先解析这些希望这些内容可以让你对GAN有更多的了解,有些内容也是个人观点, 如果有错误请指明哦。其实GAN有很多内容,这个GAN是不能直接做问答机的,现在就不说了,下次!会介绍一些改进的GAN,然后就可以开始介绍我们的图灵问答机了!!
如有错误的地方一定要指出哦!一起进步!!!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容