七、缺值数据最大似然估计
- 在分析缺值数据时,人们往往假设数据是随机缺失(missing at random,MAR)的,即一个变量值的确实与它的实际取值无关,从而不能基于前者对后者做任何推测。
- 设D是一个样本
- O是所有其值在D中已知变量的集合
- H是其值在D未知的一个变量
- 随机缺失假设可表述为:
。
- 随机缺失假设有时不成立,这时可以引入一个辅助变量
,
- 当H的取值被观测到时,他的取值为“真”;
- 而当H值缺时,它的取值为“假”。
- 显然
的取值总是已知的,而且
。
- 所以通过引入辅助变量
,总可以保证随机缺失假设成立。
- 引入
意味着在建立贝叶斯网络时需要把它考虑进去。
- 在完整数据情况下,最大似然估计可以用一个闭公式(closed formula)来计算。
- 但当数据有缺失时,
不能按上面公式的形式分解,对数似然函数
也没有计算最大似然估计的闭公式。在实际中,人们通常使用迭代法对它进行近似。
- 最常用的迭代算法,即期望优化(expectation maximization)算法,简称EM算法。