VAE学习

Auto-Encoding Variational Bayes

论文主要贡献：
- 利用重参数技巧得到变分下界的一个估计，该估计可以直接用标准梯度下降方法进行优化。
- 上述变分下界可以用来推断某些后验分布。
问题背景：

假设某个独立同分布的数据集中的每个数据点 $\boldsymbol{x}$ 都是有一个随机过程产生的，且该随机过程涉及到某个隐变量 $\boldsymbol{z}$ 。更具体地， $\boldsymbol{x}$ 的生成过程为：

①从某个分布 $p_{\theta}(\boldsymbol{z})$ 中随机采样一个 $\boldsymbol{z}$

②利用 $\boldsymbol{z}$ 得到一个条件概率 $p_{\theta}(\boldsymbol{x}|\boldsymbol{z})$ ，从该分布中采样得到 $\boldsymbol{x}$

我们感兴趣的是：
- 条件概率 $p_{\theta}(\boldsymbol{x}|\boldsymbol{z})$ ，因为如果能得到该条件分布，那么就能利用 $p(\boldsymbol{x})=p(\boldsymbol{z})p(\boldsymbol{x}|\boldsymbol{z})$ 得到 $\boldsymbol{x}$ 的分布，从而可以生成与原数据集中相似的数据。
- 后验概率 $p_{\theta}(\boldsymbol{z}|\boldsymbol{x})$ ，因为如果能得到这个后验分布，那么对于给定的 $\boldsymbol{x}$ ，我们能够得到对应的 $\boldsymbol{z}$ ，我们相信 $\boldsymbol{z}$ 是对 $\boldsymbol{x}$ 的一个好的表示。
一个自然的思路是最大化 $\boldsymbol{x}$ 的似然：
$\log p_{\theta}(\boldsymbol{x}) = \log p_{\theta}(\boldsymbol{x}, \boldsymbol{z}) - \log p_{\theta}(\boldsymbol{z}|\boldsymbol{x})$
但是 $p_{\theta}(\boldsymbol{z}|\boldsymbol{x})$ 这一后验概率很难求，为此引入 $q_{\psi}(\boldsymbol{z}|\boldsymbol{x})$ 作为对其的变分近似。对上面的式子进行变形：
$\begin{array}{lcl} \log p_{\theta}(\boldsymbol{x}) & = & \log p_{\theta}(\boldsymbol{x}, \boldsymbol{z}) - \log q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) + \log q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) - \log p_{\theta}(\boldsymbol{z}|\boldsymbol{x}) \\ & = & \log p_{\theta}(\boldsymbol{x}, \boldsymbol{z}) - \log q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) + \log \frac{q_{\phi}(\boldsymbol{z}|\boldsymbol{x})}{p_{\theta}(\boldsymbol{z}|\boldsymbol{x})} \end{array}$
两边关于 $q_{\phi}(\boldsymbol{z}|\boldsymbol{x})$ 求期望：
$\begin{array}{lcl} \int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log p_{\theta}(\boldsymbol{x}) \rm{d}\boldsymbol{z} & = & \int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log p_{\theta}(\boldsymbol{x}, \boldsymbol{z})\rm{d}\boldsymbol{z} - \int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log q_{\phi}(\boldsymbol{z}|\boldsymbol{x})\rm{d}\boldsymbol{z} + \int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot\log \frac{q_{\phi}(\boldsymbol{z}|\boldsymbol{x})}{p_{\theta}(\boldsymbol{z}|\boldsymbol{x})}\rm{d}\boldsymbol{z} \end{array}$
化简得到：
$\begin{array}{lcl} \log p_{\theta}(\boldsymbol{x}) = \int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log p_{\theta}(\boldsymbol{x}, \boldsymbol{z})\rm{d}\boldsymbol{z} - \int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log q_{\phi}(\boldsymbol{z}|\boldsymbol{x})\rm{d}\boldsymbol{z} + D_{KL}(q_{\phi}(\boldsymbol{z}|\boldsymbol{x})||p_{\theta}(\boldsymbol{z}|\boldsymbol{x})) \end{array}$
由于 $D_{KL}(q_{\phi}(\boldsymbol{z}|\boldsymbol{x})||p_{\theta}(\boldsymbol{z}|\boldsymbol{x})) \ge 0$ ,所以：
$\log p_{\theta}(\boldsymbol{x}) \ge \int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log p_{\theta}(\boldsymbol{x}, \boldsymbol{z})\rm{d}\boldsymbol{z} - \int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log q_{\phi}(\boldsymbol{z}|\boldsymbol{x})\rm{d}\boldsymbol{z}$
为了最大化 $\log p_{\theta}(\boldsymbol{x})$ 可以最大化其下界 $\int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log p_{\theta}(\boldsymbol{x}, \boldsymbol{z})\rm{d}\boldsymbol{z} - \int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log q_{\phi}(\boldsymbol{z}|\boldsymbol{x})\rm{d}\boldsymbol{z}$ ，将此下界化简得到：
$\begin{array}{lcl} \int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log p_{\theta}(\boldsymbol{x}| \boldsymbol{z})\rm{d}\boldsymbol{z} + \int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log p_{\theta}(\boldsymbol{z})\rm{d}\boldsymbol{z} - \int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log q_{\phi}(\boldsymbol{z}|\boldsymbol{x})\rm{d}\boldsymbol{z} \end{array}$
考虑上面式子中的后面两项：
$\begin{array}{lcl} \int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log p_{\theta}(\boldsymbol{z})\rm{d}\boldsymbol{z} - \int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log q_{\phi}(\boldsymbol{z}|\boldsymbol{x})\rm{d}\boldsymbol{z} & = & - \int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log \frac{q_{\phi}(\boldsymbol{z}|\boldsymbol{x})}{p_{\theta}(\boldsymbol{z})}\rm{d}\boldsymbol{z} \\ & = & -D_{KL}(q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) || p_{\theta}(\boldsymbol{z})) \end{array}$
最终下界可以写成：
$\int q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) \cdot \log p_{\theta}(\boldsymbol{x}| \boldsymbol{z})\rm{d}\boldsymbol{z} - D_{KL}(q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) || p_{\theta}(\boldsymbol{z})) = \mathbb{E}_{q_{\phi}(\boldsymbol{z}|\boldsymbol{x})}[\log p_{\theta}(\boldsymbol{x}| \boldsymbol{z})] - D_{KL}(q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) || p_{\theta}(\boldsymbol{z}))$
所以最终我们的目标就是优化 $\mathcal{L}(\theta, \phi;\boldsymbol{x}) = \mathbb{E}_{q_{\phi}(\boldsymbol{z}|\boldsymbol{x})}[\log p_{\theta}(\boldsymbol{x}| \boldsymbol{z})] - D_{KL}(q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) || p_{\theta}(\boldsymbol{z}))$ ，使其达到最大值。
重参数技巧

$\mathcal{L}(\theta, \phi;\boldsymbol{x})$ 的一个问题是其对 $\phi$ 的导数不好求，所以不便于采用梯度下降方法优化，通过引入重参数技巧获得 $\mathcal{L}(\theta, \phi;\boldsymbol{x})$ 的一个近似，而且该下界可以直接使用梯度下降算法优化。

将 $\boldsymbol{z} \sim q_{\phi}(\epsilon, \boldsymbol{x})$ ，变为 $\boldsymbol{z} = g_\phi(\epsilon, \boldsymbol{x})$ ，其中 $\epsilon \sim p(\epsilon)$ ，我们可以得到 $\mathcal{L}(\theta, \phi;\boldsymbol{x})$ 的一个近似：
$\tilde{\mathcal{L}}(\theta, \phi;\boldsymbol{x}) = - D_{KL}(q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) || p_{\theta}(\boldsymbol{z})) + \frac{1}{L}\sum_{l=1}^{L}(\log p_{\theta}(\boldsymbol{x}|\boldsymbol{z}^{(l)}))$
其中 $z^{(l)} = g_{\phi}(\epsilon^{(l)}, \boldsymbol{x})$ , $\epsilon^{(l)} \sim p(\epsilon)$ 。
VAE

变分自编码器是论文所讨论模型的一个特例，其结构如下：

感谢苏剑林先生的图

该模型的几个假设是：
- 先验概率 $p_{\theta}(\boldsymbol{z}) \sim \mathcal{N}(\boldsymbol{0}, \boldsymbol{I})$
- 后验概率 $p_{\theta}(\boldsymbol{z}|\boldsymbol{x})$ 是一个多值高斯分布，其协方差矩阵为对角矩阵
- 后验概率的近似 $q_{\phi}(\boldsymbol{z}|\boldsymbol{x})$ 简单起见取为协方差矩阵为对角矩阵的多值高斯分布
模型主要要学习的就是 $q_{\phi}(\boldsymbol{z}|\boldsymbol{x})$ ，又由于我们取 $q_{\phi}(\boldsymbol{z}|\boldsymbol{x})$ 为协方差矩阵为对角矩阵的多值高斯分布，所以只要利用两个网络分别估计该高斯分布的均值 $\boldsymbol{\mu}$ 和标准差 $\boldsymbol{\sigma}$ （实际操作时网络一般估计的是 $\log(\boldsymbol{\sigma}^2)$ ，不用加激活函数）即可。VAE的训练过程在上面的结构图中也有体现：

①输入 $\boldsymbol{x}$

②神经网络输出该 $\boldsymbol{x}$ 对应的 $q_{\phi}(\boldsymbol{z}|\boldsymbol{x})$ 的 $\boldsymbol{\mu}$ 和 $\log(\boldsymbol{\sigma}^2)$

③从 $q_{\phi}(\boldsymbol{z}|\boldsymbol{x})$ 中采样某个 $\boldsymbol{z}$ ，将其送入表示 $p_{\theta}(\boldsymbol{x}|\boldsymbol{z})$ 的decoder,得到输出

④计算loss，并优化
VAE loss

有前面的推导可知，我们希望优化的目标是最大化下式：
$\tilde{\mathcal{L}}(\theta, \phi;\boldsymbol{x}) = - D_{KL}(q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) || p_{\theta}(\boldsymbol{z})) + \frac{1}{L}\sum_{l=1}^{L}(\log p_{\theta}(\boldsymbol{x}|\boldsymbol{z}^{(l)}))$
在训练VAE时，我们可以将 $-\tilde{\mathcal{L}}(\theta, \phi;\boldsymbol{x})$ 作为loss，这样最小化loss即最大化 $\tilde{\mathcal{L}}(\theta, \phi;\boldsymbol{x})$ 。

由于我们假设 $q_{\phi}(\boldsymbol{z}|\boldsymbol{x})$ 和 $p_{\theta}(\boldsymbol{z})$ 是协方差矩阵为对角矩阵的多值高斯分布，所以我们可以计算 $- D_{KL}(q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) || p_{\theta}(\boldsymbol{z}))$ :

令 $\boldsymbol{z}$ 的维度是 $J$ ， $\boldsymbol{\mu}$ 和 $\boldsymbol{\sigma}$ 是 $q_{\phi}(\boldsymbol{z}|\boldsymbol{x})$ 的均值和标准差， $\mu_{j}$ 和 $\sigma_{j}$ 是 $\boldsymbol{\mu}$ 和 $\boldsymbol{\sigma}$ 的第 $j$ 个元素，那么：
$- D_{KL}(q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) || p_{\theta}(\boldsymbol{z})) = \frac{1}{2}\sum_{j=1}^{J}(1 + \log((\sigma_j)^2) - (\mu_j)^2 - (\sigma_j)^2)$
对于 $\frac{1}{L}\sum_{l=1}^{L}(\log p_{\theta}(\boldsymbol{x}|\boldsymbol{z}^{(l)}))$ ，根据所选的decoder类型不同可以分为：
- Bernoulli MLP
  $\log p(\boldsymbol{x}|\boldsymbol{z}) = \sum_{i=1}^{D}x_i \log y_i + (1-x_i) \log (1-y_i)$
  其中 $y = f_{\sigma}(\boldsymbol{W}_2 \tanh(\boldsymbol{W}_1\boldsymbol{z}+b_1) +b_2)$ ，即decoder的输出。
- Gaussian MLP
  $\log p(\boldsymbol{x}|\boldsymbol{z}) = \log \mathcal{N}(\boldsymbol{x};\boldsymbol{\mu},\boldsymbol{\sigma}^2\boldsymbol{I})$
  其中：
  - $\boldsymbol{\mu} = \boldsymbol{W}_4\boldsymbol{h} + b_4$
  - $\log \boldsymbol{\sigma}^2 = \boldsymbol{W}_5 \boldsymbol{h} + b_5$
  - $\boldsymbol{h}=\tanh({\boldsymbol{W}}_3 \boldsymbol{z} + b_3)$

综上，最后我们需要最小化的loss是：
$\begin{array}{lcl} \mathcal{L} & = & -\tilde{\mathcal{L}}(\theta, \phi;\boldsymbol{x}) \\ & = & D_{KL}(q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) || p_{\theta}(\boldsymbol{z})) - \frac{1}{L}\sum_{l=1}^{L}(\log p_{\theta}(\boldsymbol{x}|\boldsymbol{z}^{(l)})) \\ & = & -\frac{1}{2}\sum_{j=1}^{J}(1 + \log((\sigma_j)^2) - (\mu_j)^2 - (\sigma_j)^2) - \frac{1}{L}\sum_{l=1}^{L}(\log p_{\theta}(\boldsymbol{x}|\boldsymbol{z}^{(l)})) \end{array}$

最后编辑于：2021.01.14 13:49:11

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 230,431评论 6赞 544
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 99,637评论 3赞 429
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 178,555评论 0赞 383
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 63,900评论 1赞 318
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 72,629评论 6赞 412
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 55,976评论 1赞 328
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 43,976评论 3赞 448
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 43,139评论 0赞 290
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 49,686评论 1赞 336
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 41,411评论 3赞 358
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 43,641评论 1赞 374
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 39,129评论 5赞 364
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 44,820评论 3赞 350
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 35,233评论 0赞 28
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 36,567评论 1赞 295
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 52,362评论 3赞 400
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 48,604评论 2赞 380

VAE学习

Auto-Encoding Variational Bayes

推荐阅读更多精彩内容