大师兄的贝叶斯网络学习笔记（四十一）：贝叶斯网络（十五）

八、结构学习

模型选择(model selection)：用什么样的准则来评判不同模型结构之优劣。

模型优化(model optimization)：把最优的模型结构找出来。

设 $X_1,X_2,...,X_n$ 为一组随机变量， $D=(D_1,D_2,...,D_m)$ 是关于这些变量的一组数据，这里关心的是如何找出一个相对于D在某意义下最优的贝叶斯网络。
设G是一个以 $X_1,X_2,...,X_n$ 为节点的贝叶斯网络结构。
G相对于数据D的优劣可以用一个评分函数(scoring function)来度量：

最优参数对数似然函数(parameter maximized loglikelihood function)是一个基于似然函数的评分准则，简称优参对数似然函数。

在贝叶斯框架下，推出另一个称为 $CH$ 评分的准则。

在大样本的前提下得到第三个准则，即 $BIC$ 评分。

结构G与相应的参数集合 $\theta_G$ 组成贝叶斯网络 $(G,\theta_G)$ ，这里给θ加下标石因为不同的网络结构对应不同的参数集合。
在贝叶斯网络 $(G,\theta_G)$ 中，可以计算每一个样本 $D_l$ 的概率 $P(D_l|g,\theta_G)$ ，从而在I.I.d的假设下，可以计算 $logP(D|G,\theta_G)$ 。
在参数学习中，网络结构G已知，这就是参数向量 $\theta_G$ 的对数似然函数。
根据最大似然估计原则，相对于数据D最优的参数值 $\theta^*_G$ 应该使 $logP(D|G,\theta_G)$ 达到最大，即 $logP(D|G,\theta^*_G)=\sup_{\theta_G}logP(D|G,\theta_G)$ 。
在结构学习中，网络结构G和网络参数 $\theta_G$ 都是需要确定的对象。
于是可以将 $logP(D|G,\theta_G)$ 视为二元组 $(G,\theta_G)$ 的对数似然函数，记为 $l(G,\theta_G|D) = logP(D|G,\theta_G)$ 。
将最大似然函数估计原则加以推广，得到如下原则：相对数据D最优的贝叶斯网络 $(G^*,\theta^*_G)$ 应该是对数似然函数达到最大，即 $l(G^*,\theta^*_G|D) = \max_G\sup_{\theta_G}l(G,\theta_G|D)$ 。
在概念上，寻找最优贝叶斯网络的2过程可以分成两步：