大师兄的贝叶斯网络学习笔记(三十六):贝叶斯网络(十)
大师兄的贝叶斯网络学习笔记(三十八):贝叶斯网络(十二)
七、缺值数据最大似然估计
2. EM算法的基本理论
- 数据修补的思想直观易懂,但是为什么上面公式给出的就是基于修补后的碎权完整数据的最大似然估计?为了回答这个问题,首先需要将似然函数的概念推广到补后数据。
- 设
是关于某贝叶斯网络
的一组i.i.d数据,对其中任一样本
,设
是
中所有值缺变量的集合。
- 设
是关于参数θ的当前估计,
是基于
将D修补而得到的碎权完整数据。
- 定义θ的机遇
的对数似然函数为
。
- 其中
就是
。
- 当
时,约定P(X_l=x_l|D_l,\theta^t)为1。
- 由于
完全由D和
决定,
一般写成
,并被称为是θ的基于D的期望对数似然函数(expected loglikelihood function)。
- 在EM算法的迭代过程中,数据D是不变的,因此
往往被简化记为
。
- 在EM的第t次迭代过程中,第一步计算期望对数似然函数
,因此称为E-步骤(E-step)。
- 第二步求得使
达到最大的θ的取值,即
,因此称为M-步骤(M-step)。
- 如何计算\theta^{t+1}:
- 首先,碎权样本(D_l,X_l=x_l)的特征函数为:
![]()
- 有
。
- 定义:
。
- 直观上,
是补后数据
中所有满足
的样本的权重之和,进而有:
。
- 当θ取值如下时,
。