这一节本来是要介绍Logistic回归的贝叶斯估计的,但由于其后验概率分布无法显式求解(包含了无数个sigmoid函数的乘积),所以这一节作为前提先介绍另一种对后验概率分布的近似方法:拉普拉斯近似
一. 一维推导
我们知道随着观测数据的越来越多,它的后验概率分布往往会越来越尖,且根据大数定理,它往往会越来越近似于一个高斯分布,而拉普拉斯近似的基本想法便是利用一个高斯分布去近似后验概率分布,它需要两个量去描述,一个是众数,即概率密度最大值对应的变量,另一个是控制“尖”的程度,这刚好对应于高斯分布的这两个参数:均值和协方差矩阵,那如何求解呢?
(1)我们知道高斯概率分布中的均值所对应是最大值,它的必要条件是偏导数为0;
(2)协方差矩阵可以通过二阶泰勒展开来来近似;
下面以一维连续变量的情形来做推导,我们假设目标分布的一般定义为:
这里的是归一化系数。我们的目的是寻找一个高斯分布去近似,根据均值的性质,可以通过如下方程求解:
我们在处对做二阶泰勒展开有:
这里,,两侧取指数,我们有:
对其归一化后可以得到:
注意:只有才有意义(开口朝下),如果你发现可能需要检查一下的计算是否正确
二.高维推广
对于高维的情况,推导和一维类似,就直接写结果了
这里,为均值点(本质是求众数点),是在处的Hessian矩阵,是的行列式
三.讨论
(1)对于多峰的情况,即偏导数为0的点有多个时,可以选择使得取值最大的点;
(2)拉普拉斯近似的缺陷也很明显,它无法很好地近似多峰的情况;
(3)另外注意下的就是并不是关于的函数(而是关于的函数),所以我们并不需要关心它的值是多少,求解时按照常数处理