登录注册写文章

大师兄的贝叶斯网络学习笔记（三十四）：贝叶斯网络（八）

大师兄的贝叶斯网络学习笔记（三十四）：贝叶斯网络（八）

大师兄的贝叶斯网络学习笔记（三十三）：贝叶斯网络（七）
大师兄的贝叶斯网络学习笔记（三十五）：贝叶斯网络（九）

七、缺值数据最大似然估计

在分析缺值数据时，人们往往假设数据是随机缺失（missing at random,MAR）的，即一个变量值的确实与它的实际取值无关，从而不能基于前者对后者做任何推测。

设D是一个样本

O是所有其值在D中已知变量的集合

H是其值在D未知的一个变量

随机缺失假设可表述为： $P(H|H-值缺，O) = P(H|O)$ 。
随机缺失假设有时不成立，这时可以引入一个辅助变量 $H_{obs}$ ，

当H的取值被观测到时，他的取值为“真”；

而当H值缺时，它的取值为“假”。

显然 $H_{obs}$ 的取值总是已知的，而且 $P(H|H-值缺,H_{obs},O) = P(H+H_{obs},O)$ 。
所以通过引入辅助变量 $H_{obs}$ ，总可以保证随机缺失假设成立。
引入 $H_{obs}$ 意味着在建立贝叶斯网络时需要把它考虑进去。
在完整数据情况下，最大似然估计可以用一个闭公式(closed formula)来计算。
但当数据有缺失时， $logP(D_t|\theta)$ 不能按上面公式的形式分解，对数似然函数 $l(\theta|D)$ 也没有计算最大似然估计的闭公式。在实际中，人们通常使用迭代法对它进行近似。
最常用的迭代算法，即期望优化(expectation maximization)算法，简称EM算法。

最后编辑于：2026.03.27 18:28:23

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文