GAN原理"潜"析

为了后面介绍seqGAN + RL的应用，先来介绍一下这个很火的GAN，火到似乎女娲上帝都是“干”出来的...
稍提一点背景。统计机器学习中，这个世界是从分布中抽样产生的(假设P(world)是产生这个世界的分布，那这个世界的每一个东西都是从P里面iid抽出来的)，我们只要能拿到这个分布，就可创建一个"真实"的世界！那怎么拿到这个分布呢？建模！一般是参数模型，当世界为无穷维的就是非参数模型。（也就是说产生世界的分布还依赖于其他分布，比如产生宇宙的分布，宇宙依赖于....贝叶斯学派喜欢搞复杂）。很幸运！我们有概率论来表示这些分布，有测度论来衡量他们的大小(除了连续空间中很小的边边角角的地方measure zero)，然后又知道NN只要足够多参数(节点)，可以几乎拟合任何函数！到这了，是不是觉得我们已经可以创造世界了？！（扯得有点多了。大家也知道，其实问题很多，这里先不讲了，下面会提到一些）
再说一点大家都明白的就是，世界分布其实也是不知道的，所以我们也不能通过积分逼近它，最通用的就是采样了，然后通过MLE或者minimize cross-entropy(KL散度，衡量分布的差异)
那先来浅析一下GAN，讲讲这个是干嘛的。
其实上面也说了，他就是个生成模型，可以产生数据，比如一首歌，一张图，一首诗，但更希望产生"真"的数据！可以产生数据的模型其实很多，比如auto-encoder(AE)，经典之作VAE，通过decoder的部分就可以产生数据，但是有一个问题是，他们不是真的产生数据，只是让input和output一样，以下列举了生成模型的方法和AE，VAE，资料很多

Generative Model Family

VAE

那么GAN就是用来产生真实数据的！他的能力是通过进化得来的！举个通俗栗子(老王造假币，警察打假)说明下GAN是怎么演化的。老王想造假币谋生，一开始他造的假币很快就被警察实习生识破了；然后老王回去研究一顿之后造出来的假币，实习生分辨不出来了，但是被小警员给识破了；老王回去又开始研究，骗过了小警员；但被警司给识破了....反复研究识破，最后老王造的假币警察已经识别不出来了，和真的一样！这就是GAN的很直观的原理，其中造假币的老王叫generator，警察叫discriminator，他们两个不断博弈对抗，最后让generator学会了以假乱真，达到所谓的纳什均衡

具体到模型上，就是第一代的generator v1(G1),产生的数据，喂给discriminator v1，被轻易地的分辨出来G1产生的是假的，(初始化一个G，产生n个随机数喂给G1产生n张图(target 0)后，从真实数据中取n张图为真实数据(target 1)，然后喂给D1训练)；G2要变强骗过D1(固定D1，更新G1的参数，使其产生的数据的标签为1)，然后D1也要进化为D2，可以辨别G2产生的假数据(G2产生的数据标签为0再训练)..... 最后我就得到了一个世界上最强的G和一个世界上最强的D！你不会问我以我的G来骗我的D会怎么样呢！(一会告诉你)

intuition process of GAN

浅析之后是不是要"潜"析一下了！(公式编辑是很累哦。。还是上图吧)

这说明MLE等价于最小化KL divergence，这种divergence衡量了两个分布的差异。前面也提到NN的特性，可以拟合复杂的函数，那如何用NN产生分布呢？分布的函数还是一个分布，输入一个分布到NN即可！(比如你可以输入一个正太分布等)这好像似乎没GAN什么事。。
那我们来看一下产生一个x的概率，通过上面的方法

Z是我们输入的分布，G是NN很复杂，我们是没办法计算这个的likelihood，也就说到这里我们就卡住了，那算不了likelihood我们怎么来调参？！GAN(干！不会弄公式输入真的很僵！)
终于到了GAN了，先来介绍一下GAN的原理

generator和discriminator可以是任何函数，只是现在都用NN而已，G也是和原理一样通过一个先验分布产生复杂分布，D也差不多，output一个scalar来衡量差异。现在出现了一个V(G,D)，通过它可以得到我们要的G！那就来讲讲它吧

先不谈这个怎么来的，但这个看起来很直观对吧。第一个式子x 从真实数据中sample来，那D给他打分高(true data)，第二个式子x从G中sample来就给他打分低(false data)，也就是-D(x)要高，假设现在有一个G，我们要找一个D来maximize V，这样才是一个合格的Discriminator！

是不是很惊！用D来maxmize V(G,D)得到的竟然是真实分布和生成分布的差异！(Divergence),既然有了衡量差异的东西，那接下来很自然就是调节G的参数来最小化这个差异就好了，也就是上上上图中最后一个式子！顺便说一下JSD取值为[0,log2]，当两种分布重合的时候JSD=0
好了，那现在就可以解这个argmin max V(G,D),来得到G，损失就是max V(G,D)，用GD就可以解啦(max过程可以用抽样来做)
这里提一点比较小的问题，回想一下上述步骤，我们假设先有一个G然后找一个D得到max(V)(也就是真实和生成的差异),再来调节G找到差异最小的那个G；这时候G跟新了，那D应该重新找最大，顺应G也应该重新调整参数来找最小差异的分布，但这个新的分布一定比上一个分布的差异小么？其实也就如同机器学习设定学习率类似，所以实际编程的话，我们尽量小步或者少次更新G不过好像作者Goodfellow并不在乎这个(这名字老板一定喜欢！)
这里稍微提一下实际操作过程，因为我们不可能做V里面的积分，还是sample的方法

是不是很眼熟，一般二分类器的就是在maximize它！比如逻辑回归等。

贴一张具体算法，很清晰有木有！刚才有提到G的更新要小(次数少或者步长小)！D过程迭代多次是因为数值计算不可能一次找到最大值，每次其实是在找lower bound，多迭代几次可以找的尽可能大的

更新G的时候因为第一项和G无关，就可以不要，但是在实际操作中还有一点不一样的地方，就是V

如果用原始的V，由于开始G产生的数据比较假，会使D(x)值比较小(log(1-D(x)))，从图中也可以看出来，D(x)值小对应的梯度也是比较小，会导致在开始训练的时候很慢，改进之后的损失保证了和原来的同样趋势的同时，解决了这个问题，开始训练比较快，之后训练比较慢(-log(D(x)))。这样比较符合一般训练的感觉(其实这个loss是个比较奇怪的Divergence，是KLD - 2JSD，但是有一个在操作上的好处是，写成这样等同于是让G产生的data 作为Discriminator的positive的sample！细节就不说了)

再稍微提一个地方！(来解释一下最强的D和G谁更厉害)先摆一张图来自Martin的Towards Principled Methods for Training Generative Adversarial Networks, 2017

Martin Arjovsky, Leon Bottou, Towards Principled Methods for Training Generative Adversarial Networks, 2017

D的loss是用来衡量JSD(JS Divergence)的，可以根据JSD来调G，但是这是理想的状况。实际上如上图，D的loss都趋近于0，也就是准确率为100%，这篇paper告诉我们G train 25个epoch时，G已经很强了(他产生的图已经很真实了)，但是你会发现，这时trian一个D时，它一眼就可以分辨出来！是否是说D更厉害呢？为什么D的loss会趋近于0呢，这不是说明JSD没有给我们什么作用呢？(图上表示很快就趋近于0了！）

我们没办法做上面的积分，只能用sample的方法，sample的数据，就算G生成的数据和真实数据有重叠，但因为sample的数据，总可以用一个powerful的D找到一个分类面把他们完全分开，那一个办法是限制住D，让它不要过拟合；但是，其实D可以量出JSD的前提是D的capacity是可以输出任何值，也就是要它很powerful！这就出现了奇妙的矛盾，一方面实际操作上要它弱一点，另一方面从理论角度又希望它强一点
现在从data的本质上解释，我们的data都是高维空间的manifold(实际data和G产生的data)，这样其实data的交际是很小的，这样算出来的divergence就是log2，这会造成什么问题呢？

前面提到GAN的类似演化的过程，变得越来越好！让G产生的data和真实的越来越近，但是让计算机必须要让这个距离越来越小，但是量出来的都是log2...就没有动力进化。。。怎么解决这个问题呢！(WGAN!!!下次讲，这个是重点！！)

那先讲个trick

增加噪声
让低纬的manifold变宽，可能就有overlap，D就没有办法完全分开，但是noise要不断变小，减少干扰(这是操作上应该考虑的)

另一个问题 Mode Collapse
也就是只产生一个mode，比如产生数据只能产生一种形式，比如只会画狗，但是我们其实不知道他不会干什么。。(尴尬了吧)也就是说G只会针对一个mode调参，Goodfellow原来以为是原因是原先的loss设定(divergence)有问题，最初提到的MLE也就是loss是KLD，但是我们实际是上在minimize reverse KL Divergence，我们来看下图

这里就举例为什么会有mode collapse。我们来看reverse KL，在什么时候它取值会很大？就是真实数据不存在的时候，也就是G产生不像真实数据时，就会产生很大的loss，这时候它不会冒险产生新图，它宁愿保守的产生固有的某个图(Mode)!(KL情况类似分析即可) GoodFellow说我们是可以直接用KL divergence，但是也不会完全解决这个问题

好啦，这次就先解析这些希望这些内容可以让你对GAN有更多的了解，有些内容也是个人观点，如果有错误请指明哦。其实GAN有很多内容，这个GAN是不能直接做问答机的，现在就不说了，下次！会介绍一些改进的GAN，然后就可以开始介绍我们的图灵问答机了！！
如有错误的地方一定要指出哦！一起进步！！！

GAN原理"潜"析

推荐阅读更多精彩内容