我们在处理多分类问题时,神经网络最后一层是全连接层(假设不带偏置项),跟着softmax层,即
使其预测标签:
其中,,,。
于是对于某样本,其预测结果为:
取对数后:
取对数和求和不能调换。
变分推断(Variational Inference)为求解最后一层的权重项,即后验概率。为了拟合这一项,我们将最小化,等价于使用“ELBO(证据下界)”为优化目标,,其中为变分函数的概率分布。
求导计算过程将遭遇计算 log-sum的梯度,而该项没有解析解。
本文完。
“等等,我还可以抢救一下……”
你可以了解几个logsum的上界。
几种logsum的上界
令,其概率密度为
1. Sigmoid的积
这个界由得到。
2. 线性界(根据对数的凸性)
只有取等号。
3. 对数-求和 二次方界
4. 对数-线性 二次方界
5. 期望界
取二次方界的ELBO
如果我们将二次方界整理成 的形式,则我们有:
以上为两种不同的选择。
Abc的取值采取表格的第二行。
取高斯先验,
则。
代入上面的式子:
其最优解为
其更新规则为:
其中
参考:
https://danilorezende.com/2015/12/12/useful-inequalities-for-variational-inference/