生成式模型入门： GAN 与 VAE——“以假乱真”的哲学

在图像处理中，比较常见的任务有识别、检测、追踪等，这些任务的模型通常在训练阶段通过参数估计学得如何提取输入图像的特征，并建立输入图像与输出之间的映射，在应用阶段之间提取输入图像的特征，以得到相应的结果。

但有这样一类特殊的模型，其参数估计的目的不是通过提取特征来建立输入输出之间的映射，而是学习训练数据的分布，从而模型在应用阶段能够生成与训练数据相似的图像，通常这些图像与真实图像极为相似，我愿称之为“以假乱真”的哲学，这类模型就是生成式模型。

基于特定分布进行数据生成，是近年来机器学习领域研究和落地，通常由由模型通过学习一组数据的分布，然后生成类似的数据。在机器学习领域，主流的生成模型共有 4 类：

生成式对抗网络（Generative adversarial net, GAN）
变分自编码器（variational autoencoder, VAE）
变分自编码器（variational autoencoder, VAE）
流模型（Flow-based model）

这 4 类模型是基于不同的原理构建的，在本文中，我将介绍最常被用到的两类模型—— GAN 和 VAE。

生成对抗网络（GAN）

生成式对抗网络（Generative adversarial net, GAN）是一种基于对抗学习的深度生成模型，最早由 Ian Goodfellow 在《Generative Adversarial Nets》提出，一经提出就成为了学术界研究的热点，Ian Goodfellow 也因此被人称为“GANs 之父”（没错，就是那个写了花书的大佬ヾ(≧▽≦*)o ）。

GAN 的基本思想

想必看过金庸小说的同学们都知道，“老顽童”周伯通有一样异于常人的本领——左右互博，有了这样一门武功，一来只有自己一个人也能玩得不亦乐乎，二来自己一个人就能切磋武艺。那是不是神经网络也可以通过这种方式来“修炼功夫”？对抗学习就是基于这样的思想。

GAN 的思想很简单，总结起来就是以假乱真、相互对抗，而它的做法也是非常之简单粗暴，同时（或者说交替）训练两个网络，通过两个网络之间的博弈，从而达到互相促进的作用。

在 GAN 的整体框架中，用于训练的模型由两个网络组成，一个网络是生成器 G （generator），用于数据的生成；另一个网络是判别器 D（discriminator），用于对生成器生成的数据和训练数据进行真假判别。就拿图像生成为例，在图像生成模型的训练过程中：

G 是生成图像的网络，它接受一个随机的噪声 $z$ ，并根据噪声生成图像，生成的图像记作 $G(z)$ ，
D 是一个判别网络，判别一张图像是不是“真实的”。它的输入参数是 $x$ ， $x$ 代表一张图像，输出 $D(x)$ 代表 $x$ 为真实图片的概率，如果为 $1$ ，就代表 $100\%$ 是真实的图片，而输出为 $0$ ，就代表不可能是真实的图像。

在训练过程中，生成器和判别器就像是两个相互博弈的人，生成网络 G 的目标就是尽量生成真实的图像去欺骗判别网络 D，而 D 的目标就是尽量把 G 生成的图片和真实的图片分别开来。通过相互对抗，生成网络的生成能力和判别网络的判别能力将越来越强，最终当模型收敛时，我们将得到一个生成效果较好的生成器。

GAN 的具体实现和训练过程

为了描述 GAN 如何完成这个博弈过程，我们先定义 GAN 目标函数：
$\min_G\max_D V(D,G)=\mathbb E_{\boldsymbol x\sim p_{data(\boldsymbol x)}}[\log D(\boldsymbol x)]+\mathbb E_{\boldsymbol z\sim p_z(\boldsymbol z)}[\log(1-D(G(\boldsymbol z)))]\tag{1}$
让我来解释一下这个公式：

这个式子由两部分构成。第一部分判别网络在真实图像上的对数似然（衡量”将真实图片判定为真“的能力），第二部分是判别网络在生成网络生成的图像上的对数似然的（衡量”将生成图片判定为假“的能力）。
在第一部分中， $x$ 表示真实图像， $D(x)$ 表示 D 判断真实图像是否真实的概率；在第二部分中， $z$ 表示输入 G 的噪声， $G(z)$ 表示 G 网络生成的图像，而 $D(G(z))$ 是 D 网络判断 G 生成的图片的是否真实的概率。
对于判别网络 D 来说，它的目的是能够区分生成图像和真实图像，这需要它对目标函数进行最大化。
对于生成网络 G 来说，它需要生成能够”骗“过 D 的数据，这就意味着它需要最小化第二项似然，由于在 G 进行参数更新时，不会对第一项的值造成影响，所以相当于生成网络在最小化似然函数。

借用论文里的一张图来说明这个过程，如下图：

GAN 的博弈过程

在实际实现中，两个网络的更新是交替进行的，这导致在超参数调节不合适时，会出现参数更新不平衡的问题，不过这个问题不是这篇博客讨论的重点，暂且挂起不谈。

其训练过程如下图所示（来自原论文）：

GAN 训练过程

可以看到，在每一轮迭代中：

先更新由生成器生成数据，并由判别器对生成数据和训练数据进行判别，并利用梯度下降法对判别器的参数进行更新，这样对判别器的更新每次迭代要重复多次。
再利用生成器生成数据，并利用梯度下降法进行生成器的参数更新，每次迭代只需要更新一次

DCGAN

GAN 依然存在一些缺点，比如说训练不稳定，生成过程不可控，不具备可解释性等，于是后来出现了若干改进的版本。

当卷积神经网络再视觉领域大放光彩后，有人尝试将卷积操作融合到 GAN 中，也就是接下来要讲的深度卷积对抗生成网络（DCGAN）。

DCGAN 在《UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS》被首次提出，是基于 GAN 的基本框架构建的生成模型，相比于 GAN ，它有了如下的改进：

取消所有 pooling 层。G 网络中使用转置卷积（transposed convolutional layer）进行上采样，D 网络中用加入 stride 的卷积代替 pooling；
在 D 和 G 中均使用 batch normalization；
去掉 FC 层，使网络变为全卷积网络；
G 网络中使用 ReLU 作为激活函数，最后一层使用 tanh；
D 网络中使用 LeakyReLU 作为激活函数；

DCGAN 的网络结构如下图：

DCGAN 的网络结构

DCGAN的训练过程与 GAN 相同，不过由于网络结构的改变，相比于 GAN ，DCGAN 的训练相对平衡，并且对局部特征的提取和还原能力较 GAN 强。但由于 DCGAN 属于早期的 GANs ，所以依然存在部分 GAN 的问题，在 DCGAN 后 GAN 又有了若干改进版，由于数量较多、有的比较水，这里就暂且挂起，不多叙述。

变分自编码器（VAE）

如果说 GAN 在数据生成模型领域为我们选择了一条简单粗暴的道路，那接下来要讲的模型则为我们提供了更加巧妙的办法。

变分自编码器（variational autoencoder, VAE）采用变分推断的方式来构建，与其他自编码器类似，变分自编码器也是由编码器和解码器组成，其本质是对一个含隐变量的函数进行密度估计。在训练过程中， VAE 的主要目的是进行极大似然估计，为了使得隐变量服从某一分布，在参数估计的过程中采用了变分推断的思想。

KL 散度

假设我们现在需要在某系统中，估计模型的后验概率 $p(z|x)$ ，而这个 $p(z|x)$ 的计算非常复杂，其中 $z$ 是隐变量， $x$ 是显变量。

针对这一问题，在变分推断中，我们希望望找到一个相对简单好算的概率分布 $q(z)$ ，使它尽可能地近似我们待分析地后验概率 $p(z|x)$ ，以求我们能够用 $q(z)$ 来近似 $p(z|x)$ 。所以，为了度量两个概率分布 $q(z)$ 和 $p(z|x)$ 之间的距离，我们需要用到的一个工具就是 KL 散度。

KL 散度（Kullback-Leibler divergence）即相对熵，两个概率分布间差异的非对称性度量。如果两个分布越接近，那么 KL 散度越小，如果越远，KL 散度就会越大。对于两个分布 $p$ 和 $q$ ，其 KL 散度的公式为：

$KL(p\|q)= \sum p(x)\log\frac{p(x)}{q(x)}$ ，这个是离散概率分布的公式；
$KL(p\|q)= \int p(x)\log\frac{p(x)}{q(x)}dx$ ，这个是连续概率分布的公式。

VAE 的基本思想

假设我们有一个判别任务，现有一个等待判别的事物 $X$ ，这个事物有一个类别 $y$ ，我们需要建立一个模型 $y=f(x;w)$ 使得 $p(y|X)$ 的概率尽可能大，即让 $f(x;w)$ 尽可能地接近 $y$ 。

如果我们使用生成式模型去解决这一问题，就需要用贝叶斯公式将这个问题转换成：
$p(z|X)=\frac{p(X|z)p(z)}{p(X)}\tag{2}$
让我们再考虑一下数据生成问题，则问题可以转换成：当我们有式子左边的 $p(z|X)$ ，应该如何生成一个符合某种 $z$ 的 $X$ （其中 $z$ 为符合某种分布的隐变量）？

一个解决方式是：每次随机生成一个 $X$ ，用 $p(z|X)$ 计算概率，如果概率满足，则结束，如果不满足，则继续随机生成。但这种方式在某些情况下是不现实的，特别是右部的公式难以直接计算得到，所以，我们需要采用其他可行的方法来解决这一问题。这时就可以用到变分推断的思想结合自编码器，假设隐变量 $z$ 服从某种分布来解决这一问题。

由于公式（2）中，右部的积分公式难以计算，我们可以用一个变分函数 $q(z|X)$ 去代替 $p(z|X)$ 。在 VAE 中，这个函数将采用编码器实现），当编码器能够将数据能够完美地将真实数据编码成服从一定分布的隐变量时，那解码器就能将服从这一分布的隐变量解码成接近真实数据的生成数据，从而解码器将能作为生成器使用，这便是 VAE 的基本思想。

为了能采用 $q(z|X)$ 去代替 $p(z|X)$ ，我们需要使得两个分布布尽可能地相近，于是乎我们选择了 KL 散度这个指标用来衡量两者的相近程度，于是有：
$\begin{aligned} KL(q(x|X)\|p(z|X))&=\int q(z|X)\log{\frac{q(z|X)}{p(z|X)}}dz\\ &=\int q(z|X)[\log{q(z|X)}-\log{p(z|X)}]dz\\ &=\int q(z|X)[\log{q(z|X)}-\log{p(X|z)}-\log{p(z)}+\log{p(X)}]dz\\ &=\int q(z|X)[\log{q(z|X)}-\log{p(X|z)}-\log{p(z)}]dz+\log p(X) \end{aligned}\tag{3}$
左右整理一下，我们可以得到：
$\log{p(X)}-KL(q(z|X)\|p(z|X))=\int q(z|X)\log{p(X|z)}dz-KL(q(z|X)\|p(z))\tag{4}$
我们知道在 $X$ 给定的情况下， $p(X)$ 是个固定值，而我们的目的是最大化 $KL(q(z)\|p(z|X))$ ，所以我们需要让等号右边那部分尽量大，所以，为了找到一个好的 $q(z|X)$ ，使得它和 $p(z|X)$ 尽可能地相近，我们需要：

右边第一项的对数似然的期望最大化
右边第二项的 KL 散度最小化

VAE 的实现

为了将数据编码到隐变量，我们需要假设隐变量 $z$ 服从某种分布。通常我们假设 $z$ 服从高斯分布，则计算公式为：
$KL(p_1\|p_2)=\frac12[\log{\frac{\det(\Sigma_2)}{\det(\Sigma_1)}}-d+tr(\Sigma^{-1}_2\Sigma_1)+(\mu_2-\mu_1)^T\Sigma^{-1}_2(\mu_2-\mu_1)]\tag{5}$
为了计算方便，我们再进行一个比较强的假设，假设隐变量服从标准正态分布，即服从均值为 $0$ ，方差为单位矩阵的高斯分布，则：
$KL(p_1\|\mathcal N(0,I))+\frac12[-\log{[\det(\Sigma_1)]}-d+tr(\Sigma_1)+\mu^T_1\mu_1]\tag{6}$
接下来，我们就能通过构建编码器，得到一个由输入 $X$ 求解隐变量 $z$ 的函数，利用梯度下降法，可根据公式（6）对网络参数进行优化，使得编码器近似接近我们想要拟合的函数。

而对于公式（4）的第一项，我们可以通过构建一个从 $z$ 再变回 $X$ 的解码器，通过梯度下降法进行解码器参数优化，从而实现对 $p(X|z)$ 的极大似然估计，我们将得到一个将符合高斯分布的隐变量变成生成数据的生成器。

CVAE

条件变分自编码器（CVAE）是 VAE 的变种。VAE 是无监督学习，但是当我们需要网络能够根据我们的需要生成特定的图片，需要加入标签 y 辅组训练，这就是 CVAE。

CVAE 可以看作是有监督学习的 VAE 。将公式（4）的右部变为：
$\mathcal L(X,y)=\int p(y|X,z)-KL(q(z|X,y)\|p(z|X))\tag{7}$
在这里，自编码器需要重构的是 $y|X$ 而不是 $X$ , 所以最终的生成器能够根据标签进行采样而生成对应的数据。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,122评论 6赞 505
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,070评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,491评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,636评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,676评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,541评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,292评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,211评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,655评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,846评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,965评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,684评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,295评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,894评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,012评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,126评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,914评论 2赞 355