解析Variational AutoEncoder(VAE)

数月前听在做推荐系统的同事提了一下VAE这个模型,因为以前没用过,出于好奇便稍微研究了一下.虽然从深度学习的角度去看并不复杂,但是发现从贝叶斯概率的视角去理解并不是那么显然。
鉴于这是备受推崇的两大深度生成模型之一,想必会有可取之处。加之从我个人的思维习惯和直觉来看,这东西十分颇有深意,于是早就想来说道说道这个东西,然后因为前段时间一直一回家就提不起劲什么的,在拖了这么久之后总算有了这篇文章.

模型总览

AutoEncoder

在说VAE之前,先来看一下它的前身AutoEncoder(AE).
AE是非常知名的自编码器,它通过自监督的训练方式,能够从原始特征获得一个潜在的特征编码,实现了自动化的特征工程,并且达到了降维和泛化的目的。
它的网络结构很简单,有编码和解码两个部分组成:


AE

容易看出,之所以是自监督就是因为网络的target即是input本身,因此不需要额外的标签工作,虽然它由编码器和解码器两个部分组成,但是,显然从自编码器这个名字就可以看出,AE的重点在于编码,即得到这个隐藏层的向量,作为input的潜在特征,这是常见的一种embedding的一种方式。而解码的结果,基于训练目标,如果损失足够小的话,将会与input相同,从这一点上看解码的值没有任何实际意义,除了通过增加误差来补充平滑一些初始的零值或有些许用处。因为,从输入到输出的整个过程,都是基于已有的训练数据的映射,尽管隐藏层的维度通常比输入层小很多,但隐藏层的概率分布依然只取决于训练数据的分布,这就导致隐藏状态空间的分布并不是连续的,于是如果我们随机生成隐藏层的状态,那么它经过解码将很可能不再具备输入特征的特点,因此想通过解码器来生成数据就有点强模型所难了。

Variational AutoEncoder

正是因为以上的这些原因,有大佬就对AE的隐藏层做了些改动,得到了VAE。


VAE

VAE将经过神经网络编码后的隐藏层假设为一个标准的高斯分布,然后再从这个分布中采样一个特征,再用这个特征进行解码,期望得到与原始输入相同的结果,损失和AE几乎一样,只是增加编码推断分布与标准高斯分布的KL散度的正则项,显然增加这个正则项的目的就是防止模型退化成普通的AE,因为网络训练时为了尽量减小重构误差,必然使得方差逐渐被降到0,这样便不再会有随机采样噪声,也就变成了普通的AE。

没错,我们先抛开变分,它就是这么简单的一个假设... 仔细想一下,就会觉得妙不可言。

它妙就妙在它为每个输入x, 生成了一个潜在概率分布p(z|x) ,然后再从分布中进行随机采样,从而得到了连续完整的潜在空间,解决了AE中无法用于生成的问题。
《论语》有言:“举一隅,不以三隅反,则不复也。” ,给我的启发就是看事物应该不能只看表面,而应该了解其本质规律,从而可以灵活迁移到很多类似场景。聪明人学习当举一反三,那么聪明的神经网络,自然也不能只会怼训练数据。如果我们把原始输入x 看作是一个表面特征,而其潜在特征便是表面经过抽象之后的类特征,它将比表面特征更具备区分事物的能力,而VAE直接基于拟合了基于已知的潜在概率分布,可以说是进一步的掌握了事物的本质。
就拿一个人的某个行为来说,我们不能单纯看行为本身,因为这个行为往往代表了他的综合特性,他从出生开始,因为遗传,后天教育和环境,决定了他在面对某种情形的情况下,高概率会产生这个行为,也就是说掌握了概率分布,就掌控了一切。

你那是馋她身子

这就好比..某个骚年A说他喜欢姑娘B,经过AE的编码得到的是A喜欢B类型的姑娘的特征,但是VAE编码之后就得到了更深入的特征:A馋B类型姑娘的身子。透过现象看本质,我想这便是VAE更胜一筹的原因。

变分自编码是怎么炼成的

读了上面的内容之后,你应该对VAE模型有了一个较为直观和感性的认知,但是可能会疑惑所谓的变分到底在哪里?
放心,变分并没有被作者吃掉,接下来,我们就从变分推断的角度,对VAE进行一个理性的推导。有了上面的基础,再读下面的内容时就会轻松愉快很多。

变分推断

变分自编码器(VAE)的想法和名字的由来便是变分推断了,那么什么是变分推断呢?
变分推断是MCMC搞不定场景的一种替代算法,它考虑一个贝叶斯推断问题,给定观测变量x \in \mathbb{R}^k 和潜变量z \in \mathbb{R}^d , 其联合概率分布为p(z, x) = p(z)p(x|z) , 目标是计算后验分布p(z|x) .然后我们可以假设一个变分分布q(z) 来自分布族Q,通过最小化KL散度来近似后验分布p(z|x) :
q^* = argmin_{q(z) \in Q} KL(q(z)||p(z|x))
这么一来,就成功的将一个贝叶斯推断问题转化为了一个优化问题~

变分推导过程

有了变分推断的认知,我们再回过头去看一下VAE模型的整体框架,VAE就是将AE的编码和解码过程转化为了一个贝叶斯概率模型:
我们的训练数据即为观测变量x, 假设它由不能直接观测到的潜变量z 生成, 于是,生成观测变量过程便是似然分布:p(x|z) ,也就是解码器,因而编码器自然就是后验分布:p(z|x) .
根据贝叶斯公式,建立先验、后验和似然的关系:
p(z|x) = \frac{p(x|z)p(z)}{p(x)} = \int_z \frac{p(x|z)p(z)}{p(x)}dz

接下来,基于上面变分推断的思想,我们假设变分分布q_x(z), 通过最小化KL散度来近似后验分布p(z|x) ,于是,最佳的q_x^*便是:
\begin{align} q_x^* &= argmin (KL(q_x(z)||p(z|x)) \\ &= argmin (E_{q_x(z)}[log~q_x(z)- log~p(x|z) -log~p(z)]+log~p(x)) \\ \end{align}
因为训练数据x 是确定的,因此 log~p(x) 是一个常数,于是上面的优化问题等价于:
\begin{align} q_x^* &= argmin (E_{q_x(z)}[log~q_x(z)- log~p(x|z) -log~p(z)] \\ &= argmin( E_{q_x(z)}[-log~p(x|z) + (log~p(z) -log~q_x(z))]) \\ &= argmin (E_{q_x(z)}[-log~p(x|z) + KL(q_x(z)||p(z))]) \\ \end{align}
此时,优观察一下优化方程的形式...已经是我们前面所说的VAE的损失函数了~~
显然,跟我们希望解码准确的目标是一致的。要解码的准,则p(x|z) 应该尽可能的小,编码特征z的分布q_x(z)p(z) 尽可能的接近,此时恰好 -log~p(x|z)KL(q_x(z)||p(z)) 都尽可能的小,与损失的优化的目标也一致。

如何计算极值

正如前面所提到的AE潜变量的局限性,我们希望VAE的潜变量分布p(z)应该能满足海量的输入数据x并且相互独立,基于中心极限定理,以及为了方便采样,我们有理由直接假设p(z) 是一个标准的高斯分布\mathcal{N}(0,1) .

编码部分

我们先来看一下编码部分,我们希望拟合一个分布q_x(z)=\mathcal{N}(\mu,\sigma)尽可能接近p(z) =\mathcal{N}(0,1) , 关键就在于基于输入x计算\mu\sigma, 直接算有点困难,于是就使用两个神经网络f(x)g(x) 来无脑拟合\mu\sigma

值得一提的是,很多地方实际使用的f(x)g(x)两部分神经网络并不是独立的,而是有一部分交集,即他们都先通过一个h(x) 映射到一个中间层h, 然后分别对h计算f(h)g(h). 这样错的好处的话一方面是可以减少参数数量,另外这样算应该会导致拟合的效果差一些,算是防止过拟合吧。

解码部分

解码,即从潜变量z生成数据x的过程,在于最大化似然 p(x|z) ,那这应该是个什么分布呢?通常我们假设它是一个伯努利分布或是高斯分布
我勒个去,凭什么是这两个分布... 这个比较无解..只能伯努利分布十分简单,熟悉的人也多,高斯分布呢又太接近大自然了...关键用起来又方便....

知道了分布类型,那计算-log~p(x|z) 最小值其实只要把分布公式带进去算就可以了..

  • 高斯分布
    \begin{align} arg min( -\log~q(x|z)) &=argmin \frac{1}{2}\left\Vert\frac{x-\tilde{\mu}(z)}{\tilde{\sigma}(z)}\right\Vert^2 + \frac{c}{2}\log~2\pi + \frac{1}{2} \\ &= argmin \frac{1}{2}\left\Vert\frac{x-\tilde{\mu}(z)}{\tilde{\sigma}(z)}\right\Vert^2 \end{align}
    和预期一样,演变为了均方误差。

  • 伯努利分布
    假设伯努利的二元分布是 P1-P (注意这里是输出没一维组成的向量)
    argmin ( -\log q(x|z)) = argmin( - x \log P - (1-x) \log (1 -P))
    很对,正好就是交叉熵的损失。

然后,将编码和解码部分组合到一起,就形成了完整的VAE网络。

一点微不足道的技巧

训练的时候似乎出了点问题。从编码得到的分布\mathcal{N}(\mu,\sigma) 随机采样z 的这个过程没法求导,没法进行误差反向传播....

吐血

都推到这了你跟我说没法训练??? 差点喷出一口老血...

好在这里可以使用一个叫做重参数(reparametrisation trick) 的技巧:
z =f(x) \zeta +g(x) , \zeta \sim N(0,1)

真是妙呀,这样一来将采样变成了一个数值变换,整个过程便可导了~~~

这样,训练好模型之后,我们可以直接将解码部分拿出来,通过标准高斯分布随机采样源源不断的生成数据了。

延伸的一些思考

下面仅代表我个人的一些直觉和思考,姑且一看,或代表了一种发展的方向。
VAE中使用神经网络来拟合高斯分布的想法独树一帜,对很多任务能带来启发。神经网络在特征化训练数据的过程无异于海量数据的管中窥豹,但是想要让模型超脱于豹,而像人一样产生对相似的猫、老虎...之类的概念,VAE的这种思想颇有一些意味。

参考资料

  1. Auto-Encoding Variational Bayes
  2. Understanding Variational Autoencoders
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352