EM算法和变分推断
EM算法
EM算法的引入:
当概率模型的变量都是观测变量时,给定数据,可以直接用极大似然估计或者贝叶斯估计法估计模型的参数。当训练样本中,存在着未关测变量时(隐变量),此时需要新的算法对模型进行估计,那么引入了EM算法。
EM算法的内容:
其基本思想为:
若参数已知,则可根据训练数据推断出最优隐变量Z的值(E步),利用推断出的Z的值可以对参数做极大似然估计(M步)。
进一步,如果不是取Z的期望,而是基于计算隐变量Z的概率分布,EM算法可总结为
EM算法的导出及其收敛性可见[1]
变分贝叶斯推断
推断问题是“由果溯因”问题,核心为基于可观测数据推断出未知变量的条件分布。
EM算法和变分贝叶斯的区别
EM算法是广泛用过概率模型估计的一种算法,而变分推断是使用已知的简单分布来逼近需要推断的复杂分布,并且通过限制近似分布的类型,得到一种局部最优的近似后验分布。因此在变分推断中对于概率模型的参数估计也会用EM算法。
[1]李航. 统计学习方法[M]. 清华大学出版社, 2012.
[2]周志华. 机器学习 : = Machine learning[M]. 清华大学出版社, 2016.
[3]Gao Y, Archer E, Paninski L, et al. Linear dynamical neural population models through nonlinear embeddings[J]. 2016.