参考:
StackExchange
Variational Inference: A Review for Statisticians
这个问题是变分推断(variational inference)的一个基础问题。很奇怪的是,我没有在中文社区发现这个问题的详细解释。一句话总结,如果求解过程出现了不可约掉的积分,该过程就是不可直接计算的(intractable),或者说没有闭式解。而机器学习所有解决该问题的办法,就是巧妙地去掉积分。
下面通过一个例子,来解释这个问题。
问题描述
符号定义:表示观察变量,表示隐变量,它们的联合概率密度为。
目标:求解条件概率。在贝叶斯框架下,这一过程叫做推断,而叫做后验概率。
后验概率密度:
其中被称为“证据”(evidence)
下面的例子用来说明,证据的积分形式通常没有闭式解。
例子:混合高斯模型的后验概率估计
设有个混合分支,分支的均值集合为,这些均值服从高斯分布,其中参数表示方差。采样次得到。
每个观察数据的产生过程如下:从类别中选出一个分支,记为,其数学形式为one-hot(一个长为的向量,其中一位是1,其余位是0)。从(另一个)高斯分布采样,得到。连续采样n次。
即:
联合概率密度为:
隐变量。
证据为:
。
上式中,每一个都无法从连乘项里分离出来,所以计算该积分的复杂度为,为K的指数级别的复杂度。所以一般没有闭式解(intractable)。
(想象某个场景,在10个混合分支中,采样100个点,计算该积分的复杂度高达!)
ELBO(证据下界)
对目标求解,一味蛮干是行不通的。通行的做法有两种,要么通过蒙特卡洛法近似,要么通过变分推断近似。这里介绍后一种。
我们利用容易处理的“代理人”函数近似。
其中KL表示相对熵,由定义,
由此可见,
定义
。
最大化ELBO就是最小化,成功避开计算。
拿掉积分!
上面的混合高斯的例子,应用变分方法,我们得到
虽然多引入一个参数,但是不用求积分,只要算乘法和加减就够了。生活一下子美好了有木有!
求积分为啥这么难
至今的算法中,求微分(导数)的一大堆,求积分的寥寥可数。计算机和人类一样不擅长算积分啊!