大师兄的贝叶斯网络学习笔记(三十四):贝叶斯网络(八)

大师兄的贝叶斯网络学习笔记(三十三):贝叶斯网络(七)

七、缺值数据最大似然估计

  • 在分析缺值数据时,人们往往假设数据是随机缺失(missing at random,MAR)的,即一个变量值的确实与它的实际取值无关,从而不能基于前者对后者做任何推测。
  • 设D是一个样本
  • O是所有其值在D中已知变量的集合
  • H是其值在D未知的一个变量
  • 随机缺失假设可表述为:P(H|H-值缺,O) = P(H|O)
  • 随机缺失假设有时不成立,这时可以引入一个辅助变量H_{obs}
  • 当H的取值被观测到时,他的取值为“真”;
  • 而当H值缺时,它的取值为“假”。
  • 显然H_{obs}的取值总是已知的,而且P(H|H-值缺,H_{obs},O) = P(H+H_{obs},O)
  • 所以通过引入辅助变量H_{obs},总可以保证随机缺失假设成立。
  • 引入H_{obs}意味着在建立贝叶斯网络时需要把它考虑进去。
  • 在完整数据情况下,最大似然估计可以用一个闭公式(closed formula)来计算。
  • 但当数据有缺失时,logP(D_t|\theta)不能按上面公式的形式分解,对数似然函数l(\theta|D)也没有计算最大似然估计的闭公式。在实际中,人们通常使用迭代法对它进行近似。
  • 最常用的迭代算法,即期望优化(expectation maximization)算法,简称EM算法。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容