大师兄的贝叶斯网络学习笔记(四十一):贝叶斯网络(十五)
大师兄的贝叶斯网络学习笔记(四十三):贝叶斯网络(十七)
八、结构学习
2. 贝叶斯模型选择
- 在贝叶斯模型选择框架中,视模型结构G和模型参数
为随记变量。
- 变量G的可能取值包含所有以
为节点的有向无环图。
- 给定G,变量
的可能取值是所有与G对应的参数值。
- 我们把关于结构G的先验知识概括为一个概率分布
,称之为结构先验分布(structure prior)。
- 对于一个给定结构G,我们把关于参数
的先验知识概括为另一个概率分布
,称之为参数先验分布(parameter prior)。
- 这样,就有一个关于二元组
的先验分布
。
- 在观测到数据
后,需要计算的是后验概率分布
。
- 因此有
。
就是关于
的贝叶斯估计。
- 基于这个估计,可以对下一个样本
进行预测,即计算其概率分布
。
- 其中第二个等式成立时因为
。
- 而第三个等式成立时因为
与
无关。
- 最后得到的式称为
的完全贝叶斯估计。
- 为了解读
,先来看其中的一部分
,它是在给定结构G的情况下对
进行完全贝叶斯估计。
- 其结果可以表示成一个贝叶斯网络,解读如下:
- 由于不知道贝叶斯网络的网络结构,逐个考虑每一个可能的结构;
- 对每一个可能得结构G,用贝叶斯网络进行参数估计,得到一个贝叶斯网络;
- 最后将获得的所有贝叶斯网络的联合概率加权平均,一个贝叶斯网络的权重就是其结构G的后验概率
;
- 用加权平均的结果就是
的分布
。
- 这个计算
的过程称为模型平均( model averaging)。
-
由随机变量
组成。
- 若已知其中一些变量的取值E=e,怎样就散另外一些变量的后验概率
?
- 用
记上段所述过程中以G为结构的贝叶斯网络。
- 需要在每个网络
中计算
,然后将结果加权平均,即
。
- 在实际中模型平均只会考虑为数不多的几个模型,最常见的是考虑对应后验概率
最大的哪个模型,即
。
- 这样,利用贝叶斯网络模型选择进行结构学习的实质过程是:
- (1) 找出后验概率最大的结构
。
- (2) 相对于
进行贝叶斯参数估计。
- 由于
,而
不依赖于G,所以选择后验概率最大的结构就是选择使如下函数达到最大的结构:
。
称为结构G的贝叶斯评分(Bayesian score)。
是结构先验分布,一般假设它是均匀分布。
- 展开
,有
- 这里
二元组
的似然函数,记为
。
- 因此
称为边缘似然函数(marginal likelihood),记作
。