当变分贝叶斯遇到多分类问题

我们在处理多分类问题时,神经网络最后一层是全连接层(假设不带偏置项),跟着softmax层,即
\mathbf{h} = SomeNeuralNet(\mathbf{x})
\mathbf{p} = \mathbf{W}^T\mathbf{h}
softmax(\mathbf{p} ) = \frac{e^\mathbf{p}}{\sum e^\mathbf{p}}=(\frac{e^{p_1}}{\sum_{k=1}^{K} e^{p_k}}, \frac{e^{p_2}}{\sum_{k=1}^{K} e^{p_k}}, ..., \frac{e^{p_K}}{\sum_{k=1}^{K} e^{p_k}})
=(\frac{e^{W_1^T\mathbf{h}}}{\sum_{k=1}^{K} e^{p_k}}, \frac{e^{W_2^T\mathbf{h}}}{\sum_{k=1}^{K} e^{p_k}}, ..., \frac{e^{W_K^T\mathbf{h}}}{\sum_{k=1}^{K} e^{p_k}})
使其预测标签:
\mathbf{y} =(y_1, y_2, ..., y_n) \in \{1,...,K \}^n
其中\mathbf{x}=(x_1,...,x_n) \in \mathbb{R}^{d_x\times n}\mathbf{h}=(h_1,...,h_n) \in \mathbb{R}^{d_h\times n}\mathbf{p}=(p_1,...,p_n) \in \mathbb{R}^{d_p\times n}\mathbf{W}=(W_1,...,W_K) \in \mathbb{R}^{d_h\times K}
于是对于某样本x_i,其预测结果为:
P(y_i=k|x_i;\mathbf{W})=\frac{e^{W_k^Th_i}}{\sum_{k'=1}^{K} e^{W_{k'}^Th_i}}
取对数后:
\log P(y_i=k|h_i;\mathbf{W})=W_k^Th_i-\log {\sum_{k'=1}^{K} e^{W_{k'}^Th_i}}
取对数和求和不能调换。
变分推断(Variational Inference)为求解最后一层的权重项W,即后验概率P(W|h,y)。为了拟合这一项,我们将最小化KL[Q(W)||P(W|h,y)],等价于使用“ELBO(证据下界)”为优化目标,ELBO \equiv \mathbb{E}_{q_\phi(W)}[\log p_\theta(h,y,W) - \log q_\phi(W|h,y)],其中q_\phi(\cdot) \sim Q为变分函数的概率分布。
\log P(y|h,W) \geq ELBO = \mathbb{E}_Q[\log P(y|h,W)] - KL[Q(W)||P(W)]
=\sum_{k=1}^{K}\sum_{i=1}^n\mathbb{E}_Q[W_k^Th_i]-\sum^{n}_{i=1}\mathbb{E}_Q[\log {\sum_{k'=1}^{K} e^{W_{k'}^Th_i}}]
求导计算过程将遭遇计算 log-sum的梯度,而该项没有解析解。
本文完。

“等等,我还可以抢救一下……”
你可以了解几个logsum的上界。

几种logsum的上界

x_k \in \mathbb{R}^d,其概率密度为q:\mathbb{R}^d \rightarrow \mathbb{R}
1. Sigmoid的积
\log\sum_{k=1}^{K}e^{x_k} \leq \alpha + \sum_{k=1}^{K} \log(1+e^{x_k-\alpha})\quad \forall \alpha \in \mathbb{R}
这个界由\prod_{k=1}^{K}\left(1+e^{x_{k}-\alpha}\right) \leq \sum_{k=1}^{K} e^{x_{k}-\alpha}=e^{-\alpha} \sum_{k=1}^{K} e^{x_{k}}得到。
2. 线性界(根据对数的凸性)
\log\sum_{k=1}^{K}e^{x_k} \leq \phi\sum_{k=1}^{K} e^{x_k}-\log \phi -1\quad \forall \phi \in \mathbb{R}
只有\phi=\left(\sum_{k=1}^{K} e^{x_{k}}\right)^{-1}取等号。
3. 对数-求和 二次方界
\log \sum_{k=1}^{K}e^{x_k} \leq \sum_{k=1}^{K} (x_k-\xi_k)^2-\frac{1}{K}[\sum_{k=1}^{K} (x_k-\xi_k)]^2+\sum_{k=1}^{K}\frac{(x_k-\xi_k)e^{\xi_k}}{\sum_{j=1}^K e^{\xi_j}}+\log \sum_{k=1}^K e^{\xi_k}\quad \forall \xi_k \in \mathbb{R}^d
4. 对数-线性 二次方界
\begin{array}{ll}{\log \left(1+e^{x}\right)} & {\leqslant \frac{1}{2 \xi}\left(\frac{1}{1+e^{-\xi}}-\frac{1}{2}\right)\left(x^{2}-\xi^{2}\right)+\frac{x-\xi}{2}+\log \left(1+e^{\xi}\right) \quad \forall \xi \in \mathbb{R}} \\ {\log \left(1+e^{x}\right)} & {\geqslant \frac{\xi-x}{2}-\frac{\tanh \left(\frac{\xi}{2}\right)}{4 \xi}\left(\xi^{2}-x^{2}\right)+\log \left(1+e^{\xi}\right)}\end{array}
5. 期望界
\begin{array} {l} {\mathbb{E}_{q}\left[\log \sum_{k} x_{k}\right] \leqslant \log \sum_{k} \mathbb{E}_{q}\left[x_{k}\right]} \\ {\mathbb{E}_{q}\left[\log \sum_{k=1}^K x_{k}\right] \leqslant \log w+\frac{\sum_{k}\left[\mathbb{E}_{q}\left[x_{k}\right]-w\right.}{w}} & \forall w >0\\ {\mathbb{E}_{q}\left[\log \sum_{k=1}^{K} x_{k}\right] \geqslant \log \sum_{k} e^{\mathbb{E}_{d}\left|x_{k}\right|}} \\ {\mathbb{E}_{q}\left[\log \sum_{k=1}^{K} x_{k}\right] \geqslant \sum_{k} p_{k} \mathbb{E}_{q}\left[\log x_{k}\right]-\sum_{k} p_{k} \log p_{k}} & \forall p_{k}>0 \wedge \sum_{k} p_{k}=1\\ {\mathbb{E}_{q}\left[\log \left(1+e^{x_{k}}\right)\right] \leqslant \xi_{k} \mathbb{E}_{q}\left[X_{k}\right]+\log \mathbb{E}_{q}\left[e^{-\xi x_{k}}+e^{\left(1-\xi_{k}\right) z_k}\right]} & {\forall \xi_{k}>0} \end{array}

取二次方界的ELBO

如果我们将二次方界整理成\log \sum_{k=1}^{K} e^{x_{k}} \leq \boldsymbol{x}^{T} A \boldsymbol{x}+\boldsymbol{x}^{T} b+c 的形式,则我们有:

A b c
{I_{d}-\frac{1}{K} \mathbf{1 1}^{T}} \left(\frac{e^{\xi_{k}}}{\sum_{j=1}^{K}e^{\xi_j}}+2 \frac{\xi^T\mathbf{1}}{K}-\xi_{k}\right)_{k=1}^{K} \log \sum_{k=1}^{K} e^{\xi_{k}}-\frac{\left(\xi^{T} \mathbf{1}\right)^2}{K}+\sum_{k=1}^{K} \xi_{k}^{2}-\frac{\xi_{k} e^{\xi_k}}{\sum_{j=1}^{K} e^{\xi_j}}
{\operatorname{diag}\left(\lambda\left(\xi_{k}\right)_{k=1}^{K}\right)} \frac{1}{2}- 2\left(\alpha \lambda\left(\xi_{k}\right)\right)_{k=1}^{K} \alpha- \sum_{k=1}^{K} \frac{\xi_{k}+\alpha}{2}+\lambda\left(\xi_{k}\right)\left(\alpha^{2}-\xi_{k}^{2}\right)+\log \left(1+e^{\xi_{k}}\right)

以上为两种不同的选择。
\begin{aligned} \mathcal{F}(\boldsymbol{\xi})&=-\frac{1}{2} \sum_{k=1}^{K} \operatorname{tr}\left(A_{k} \mathbb{E}_{Q}\left[W_{k} W_{k}^{T}\right]\right)+\sum_{k=1}^{K} b_{k}^{T} \mathbb{E}_{Q}\left[W_{k}\right]-K L(Q(W) \| P(W))-c\\ where\\ A_{k}&=2 \sum_{i} \lambda\left(\xi_{i k}\right) x_{i} x_{i}^{T}\\ b_{k} &=\sum_{i}\left(y_{i k}-\frac{1}{2}+2 \alpha_{i} \lambda\left(\xi_{i k}\right)\right) x_{i} \\ c &=\sum_{i, k} \alpha_{i}\left(\frac{K}{2}-1\right)+\frac{\xi_{i k}}{2}-\lambda\left(\xi_{i k}\right)\left(\alpha_{i}^{2}-\xi_{i k}^{2}\right)-\log \left(1+e^{\xi_{i k}}\right) \end{aligned}
Abc的取值采取表格的第二行。

取高斯先验P(W_k)\sim \mathcal{N}(\bar{\mu_k}, \bar{\Sigma_k})Q(W_k)\sim\mathcal{N}(\mu_k, \Sigma_k)
\mathbb{E}_Q[W_k^Th]=\mu_{k}^{T} x+\frac{1}{2} x^{T} \Sigma_{k} x
\begin{equation} KL(Q(\boldsymbol{W}) || P(\boldsymbol{W}))= \frac{1}{2} \sum_{k=1}^{K}\left(\log \frac{\left|\bar{\Sigma}_{k}\right|}{\left|\Sigma_{k}\right|}+\operatorname{tr}\left(\Sigma_{k} \bar{\Sigma}_{k}^{-1}\right)+\left(\mu_{k}-\bar{\mu}_{k}\right)^{T} \bar{\Sigma}_{k}^{-1}\left(\mu_{k}-\bar{\mu}_{k}\right)-K d\right) \end{equation}
代入上面的式子:
\begin{aligned} \mathcal{F}(\boldsymbol{\mu}, \boldsymbol{\Sigma}, \boldsymbol{\xi}, \boldsymbol{\alpha})=& \frac{n K d}{2}+\left(\frac{K}{2}-1\right) \sum_{i} \alpha_{i}+\sum_{i, k} \mu_{k}^{T} x_{i}\left(y_{i k}-\frac{1}{2}+2 \alpha_{i} \lambda\left(\xi_{i k}\right)\right) \\ &-\lambda\left(\xi_{i k}\right)\left(x_{i}^{T} \Sigma_{k} x_{i}+\left(\mu_{k}^{T} x_{i}\right)^{2}\right)+\frac{\xi_{i k}}{2}-\lambda\left(\xi_{i k}\right)\left(\alpha_{i}^{2}-\xi_{i k}^{2}\right)-\log \left(1+e^{\xi_{i k}}\right) \\ &+\frac{1}{2} \sum_{k} \log \frac{\left|\Sigma_{k}\right|}{| \bar{ \Sigma} _{k}|}-\operatorname{tr}\left(\Sigma_{k} \bar{\Sigma}_{k}^{-1}\right)-\left(\mu_{k}-\bar{\mu}_{k}\right)^{T} \bar{\Sigma}_{k}^{-1}\left(\mu_{k}-\bar{\mu}_{k}\right) \end{aligned}
其最优解为
\begin{aligned} \hat{\Sigma}_k &=(A_k+{\bar{\Sigma}_k}^{-1})^{-1}, \\ \hat{\mu}_k &=\hat{\Sigma}_{k}(b+{\bar{\Sigma_k}}^{-1} \bar{\mu}_k). \end{aligned}
其更新规则为:
\begin{aligned} \hat{\Sigma}^{-1}&= \bar{\Sigma}^{-1} + 2 \sum_{i} \lambda \left( \xi_{i} \right) x_{i} x_{i}^{T} \\ \hat{\mu} &= \hat{\Sigma} \left[\bar{\Sigma}^{-1} \bar{\mu}+\sum_{i}\left( y_{i}-\frac{1}{2} \right) x_{i} \right] \end{aligned}

\mathcal{F}(\boldsymbol{\mu}, \boldsymbol{\Sigma}, \boldsymbol{\phi})=-\sum_{k=1}^{K} \mu_{k}^{T} s_{k}+\sum_{i=1}^{n} \phi_{i} \sum_{k=1}^{K} e^{\mu_{k}^{T} x_{i}+\frac{1}{2} x_{i}^{T} \Sigma_{k} x_{i}}-\log \left(\phi_{i}\right)-n-K L(Q(\beta) \| P(\beta))
其中s_{k}=\sum_{i=1}^n\sum_{y_{i}=k}^K x_{i}
参考:
https://danilorezende.com/2015/12/12/useful-inequalities-for-variational-inference/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,233评论 6 495
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,357评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,831评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,313评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,417评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,470评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,482评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,265评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,708评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,997评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,176评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,503评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,150评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,391评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,034评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,063评论 2 352

推荐阅读更多精彩内容