概率模型有时既有观测变量, 又有隐变量, 当存在隐变量时, 直接的最大似然估计无法直接搞定。
EM算法是一种迭代算法, 对于含有隐变量(hidden variable)的概率模型参数的极大似然估计或极大后验概率估计.
EM算法每次迭代分两步: E步, 求期望; M步, 求极大; 因此EM算法称为期望极大算法.
最经典的例子就是抛3个硬币:
假设三枚硬币, 分别记作A,B,C,正面出现的概率分别为. ,抛A硬币决定B和C(A正面, 选B; A反面, 选C), 然后抛B或者C决定正反面, 正面记1, 反面记0; 然后估算3个硬币的正反面概率值。
下面对着三枚硬币建模模型:
上式, 随机变量y是观测变量, 一次试验最终结果是1, 则y=1; 否则, y=0; 随机变量z是隐变量, 表示中间为观测到的掷硬币A的结果; 是模型参数, 这模型是以上数据的生成模型.
注意: 对隐变量的理解是理解EM算法的第一要义, 这里, 随机变量y的数据可以观测, 但是随机变量z的数据不可观测.
我们可以简单的来核对一下这个概率模型写得对不对。我们画出一次抛掷硬币的整个过程,并计算出相应的概率。然后带入到上面的公式中就可以知道模型构建是否正确了。
case | A(z) | B | C | prob |
---|---|---|---|---|
1 | 1 | 1 | - | |
2 | 1 | 0 | - | |
3 | 0 | - | 1 | |
4 | 0 | - | 0 |
分析:
- 试验结果为1
根据上表, 有
同时, y=1带入上式(1), 有:
- 试验结果为0
根据上表, 有
同时, y=1带入上式(1), 有:
可见, 公式(1)符合实际实验结果.
用极大似然估计求参数:
观测数据, 为观测数据, 则观测数据的似然函数为:
即,
考虑求模型参数的极大似然估计:
该问题没有解析解, 只能通过迭代的方法求解, EM算法便是可求解这一问题的一种迭代算法.
一般地, 用Y表示观测变量的数据, Z表示隐变量的数据, Y和Z连在一起称为完全数据, 观测数据Y又称不完全数据.
不完全数据Y的概率分布是, 对数似然函数
完全数据Y和Z的联合概率分布, 对数似然函数是
EM算法通过迭代求的极大似然估计, 每次迭代先求E(期望), 后求M(极大化).
Q函数:
完全数据的对数似然关于给定观测数据Y和当前参数下对未观测数据Z的条件概率分布的期望称为Q函数:
EM算法:
输入: 观测变量数据, 隐变量数据Z, 二者联合分布, 条件分布
输出: 模型参数
(1) 选择参数的初值, 开始迭代
注意: EM算法对初始值敏感, 不同的初值可能得到不同的参数估计值
(2) E步: 第i+1次迭代的E步, 计算:
这里 , 是第i次迭代参数的估计值, 是在观测数据Y和当前参数估计下隐变量数据Z的条件概率分布
(3)M步: 求使极大化的, 确定第i+1次迭代的参数估计值, 完成一次迭代:
每次迭代使似然函数增大或达到局部极值.
(4) 重复(2)(3)步, 直到收敛.
迭代终止条件, 一般是对较小的, 若满足:
则停止迭代.