1. EM介绍
EM(Expectation Maximization Algorithm, EM)是Dempster等人于1977年提出的一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计(MLE),或极大后验概率估计(MAP)。
2. EM算法描述
-
输入
:观测变量数据
:隐变量数据
:联合分布
:条件分布,后验概率
-
输出
:模型参数
-
迭代过程
初始化参数
步:记
是第
次迭代参数
的估计值,则第
次迭代的
步:求对数联合概率在后验上的期望:
步:求
步的参数估计值
:
重复
步和
步,直到收敛:
3. EM公式导出之ELBO+KL Divergence
MLE的做法是最大化似然函数:
上面的式子中有隐变量并且是
形式,不好直接计算。
EM的做法是求出似然函数的下界,不断迭代,使得下界不断逼近.
等式两边同时对求期望:
所以:
上式中,是一个下界,所以
,当
散度为0时,等式成立。
也就是说,不断最大化等价于最大化似然函数。在EM迭代过程中的第
步,假设
,然后最大化
4. EM公式导出之ELBO+Jensen Inequality
4.1 Jensen Inequality
4.2 EM公式推导
对log-likelihood做如下变换:
只有当时,等号才成立。
5. EM收敛性证明
如果能证明
则说明EM是收敛的,因为肯定有界,单调有界函数必收敛!
由于使得
达到极大,所以:
因此,得到: