大师兄的贝叶斯网络学习笔记(四十二):贝叶斯网络(十六)

大师兄的贝叶斯网络学习笔记(四十一):贝叶斯网络(十五)
大师兄的贝叶斯网络学习笔记(四十三):贝叶斯网络(十七)

八、结构学习

2. 贝叶斯模型选择
  • 在贝叶斯模型选择框架中,视模型结构G和模型参数\theta_G为随记变量。
  • 变量G的可能取值包含所有以X_1,X_2,...,X_n为节点的有向无环图。
  • 给定G,变量\theta_G的可能取值是所有与G对应的参数值。
  • 我们把关于结构G的先验知识概括为一个概率分布P(G),称之为结构先验分布(structure prior)
  • 对于一个给定结构G,我们把关于参数\theta_G的先验知识概括为另一个概率分布p(\theta_G|G),称之为参数先验分布(parameter prior)
  • 这样,就有一个关于二元组(G,\theta_G)的先验分布p(G,\theta_G) = P(G)p(\theta_G|G)
  • 在观测到数据D=(D_1,D_2,...,D_m)后,需要计算的是后验概率分布p(G,\theta_G|D)
  • 因此有p(G,\theta_G|D) \propto P(D|G,\theta_G)p(G,\theta_G)
  • p(G,\theta_G|D)就是关于G,\theta_G的贝叶斯估计。
  • 基于这个估计,可以对下一个样本D_{m+1}进行预测,即计算其概率分布P(D_{m+1}|D)
  • P(D_{m+1}|D) = \sum_G\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G = \sum_G\int P(D_{m+1}|G,\theta_G)P(G|D)p(G,\theta_G|D)d\theta_G = \sum_G P(G|D)\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G
  • 其中第二个等式成立时因为p(G,\theta_G|D) = P(G|D)p(\theta_G|G,D)
  • 而第三个等式成立时因为P(G|D)\theta_G无关。
  • 最后得到的式称为P(D_{m+1}|D)的完全贝叶斯估计。
  • 为了解读\sum_G P(G|D)\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G,先来看其中的一部分\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G,它是在给定结构G的情况下对D_{m+1}进行完全贝叶斯估计。
  • 其结果可以表示成一个贝叶斯网络,解读如下:
  • 由于不知道贝叶斯网络的网络结构,逐个考虑每一个可能的结构;
  • 对每一个可能得结构G,用贝叶斯网络进行参数估计,得到一个贝叶斯网络;
  • 最后将获得的所有贝叶斯网络的联合概率加权平均,一个贝叶斯网络的权重就是其结构G的后验概率P(G|D)
  • 用加权平均的结果就是D_{m+1}的分布P(D_{m+1}|D)
  • 这个计算P(D_{m+1}|D)的过程称为模型平均( model averaging)
  • D_{m+1}由随机变量X_1,X_2,...,X_n组成。
  • 若已知其中一些变量的取值E=e,怎样就散另外一些变量的后验概率P(Q|E=e)
  • N_G记上段所述过程中以G为结构的贝叶斯网络。
  • 需要在每个网络N_G中计算P_{N_G}(Q|E=e),然后将结果加权平均,即P(Q|E=e)=\sum_GP(G|D)P_{N_G}(Q|E=e)
  • 在实际中模型平均只会考虑为数不多的几个模型,最常见的是考虑对应后验概率P(G|D)最大的哪个模型,即G^*=\arg\max_GP(G|D)
  • 这样,利用贝叶斯网络模型选择进行结构学习的实质过程是:
  • (1) 找出后验概率最大的结构G^*
  • (2) 相对于G^*进行贝叶斯参数估计。
  • 由于P(G|D)=\frac{P(D|G)P(G)}{P(D)},而P(D)不依赖于G,所以选择后验概率最大的结构就是选择使如下函数达到最大的结构:\log P(G,D) = \log P(D|G)+\log P(G)
  • \log P(G,D)称为结构G的贝叶斯评分(Bayesian score)
  • P(G)是结构先验分布,一般假设它是均匀分布。
  • 展开P(D|G),有P(D|G) = \int P(D|G,\theta_G)p(\theta_G|D)d\theta_G
  • 这里P(D|G,\theta_G)二元组G,\theta_G的似然函数,记为L(G,\theta_G|d)
  • 因此P(D|G)称为边缘似然函数(marginal likelihood),记作L(G|D)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容