大师兄的贝叶斯网络学习笔记（四十二）：贝叶斯网络（十六）

大师兄的贝叶斯网络学习笔记（四十一）：贝叶斯网络（十五）
大师兄的贝叶斯网络学习笔记（四十三）：贝叶斯网络（十七）

八、结构学习

2. 贝叶斯模型选择

在贝叶斯模型选择框架中，视模型结构G和模型参数 $\theta_G$ 为随记变量。
变量G的可能取值包含所有以 $X_1,X_2,...,X_n$ 为节点的有向无环图。
给定G，变量 $\theta_G$ 的可能取值是所有与G对应的参数值。
我们把关于结构G的先验知识概括为一个概率分布 $P(G)$ ，称之为结构先验分布(structure prior)。
对于一个给定结构G，我们把关于参数 $\theta_G$ 的先验知识概括为另一个概率分布 $p(\theta_G|G)$ ，称之为参数先验分布(parameter prior)。
这样，就有一个关于二元组 $(G,\theta_G)$ 的先验分布 $p(G,\theta_G) = P(G)p(\theta_G|G)$ 。
在观测到数据 $D=(D_1,D_2,...,D_m)$ 后，需要计算的是后验概率分布 $p(G,\theta_G|D)$ 。
因此有 $p(G,\theta_G|D) \propto P(D|G,\theta_G)p(G,\theta_G)$ 。

$p(G,\theta_G|D)$ 就是关于 $G,\theta_G$ 的贝叶斯估计。

基于这个估计，可以对下一个样本 $D_{m+1}$ 进行预测，即计算其概率分布 $P(D_{m+1}|D)$ 。

$P(D_{m+1}|D) = \sum_G\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G = \sum_G\int P(D_{m+1}|G,\theta_G)P(G|D)p(G,\theta_G|D)d\theta_G = \sum_G P(G|D)\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G$

其中第二个等式成立时因为 $p(G,\theta_G|D) = P(G|D)p(\theta_G|G,D)$ 。

而第三个等式成立时因为 $P(G|D)$ 与 $\theta_G$ 无关。

最后得到的式称为 $P(D_{m+1}|D)$ 的完全贝叶斯估计。

为了解读 $\sum_G P(G|D)\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G$ ，先来看其中的一部分 $\int P(D_{m+1}|G,\theta_G)p(G,\theta_G|D)d\theta_G$ ，它是在给定结构G的情况下对 $D_{m+1}$ 进行完全贝叶斯估计。
其结果可以表示成一个贝叶斯网络，解读如下：

由于不知道贝叶斯网络的网络结构，逐个考虑每一个可能的结构；

对每一个可能得结构G，用贝叶斯网络进行参数估计，得到一个贝叶斯网络；

最后将获得的所有贝叶斯网络的联合概率加权平均，一个贝叶斯网络的权重就是其结构G的后验概率 $P(G|D)$ ；

用加权平均的结果就是 $D_{m+1}$ 的分布 $P(D_{m+1}|D)$ 。

这个计算 $P(D_{m+1}|D)$ 的过程称为模型平均( model averaging)。

$D_{m+1}$ 由随机变量 $X_1,X_2,...,X_n$ 组成。
若已知其中一些变量的取值E=e，怎样就散另外一些变量的后验概率 $P(Q|E=e)$ ？
用 $N_G$ 记上段所述过程中以G为结构的贝叶斯网络。
需要在每个网络 $N_G$ 中计算 $P_{N_G}(Q|E=e)$ ，然后将结果加权平均，即 $P(Q|E=e)=\sum_GP(G|D)P_{N_G}(Q|E=e)$ 。
在实际中模型平均只会考虑为数不多的几个模型，最常见的是考虑对应后验概率 $P(G|D)$ 最大的哪个模型，即 $G^*=\arg\max_GP(G|D)$ 。
这样，利用贝叶斯网络模型选择进行结构学习的实质过程是：