八、结构学习
2. 贝叶斯模型选择
- 设D是一组关于变量
的完整i.i.d数据,G是一个以
为节点的贝叶斯网络。
- 如果参数先验分布
是如下的乘积狄利克雷分布:
\theta^{\alpha_{ijk-1}}_{ijk}$。
- 那么
。
- 其中
是D中满足
的样本个数,
![]()
- 证明:为方便起见,约定在
时,
。
- 在这一约定下
即使在
时也成立。
- 当
时,公式等号左边按约定是1。所以此时公式成立。
- 设公式在m个样本即
的情况下成立。
- 下面证明它在m+1个样本即
时也成立。
- 设
个样本时,满足
的样本的个数;
-
是m+1个样本时,满足
的样本的个数,有
。
- 于是
- 其中
![]()
- 根据归纳假设,有
- 而
是在给定网络结构G的情况下,基于D对
的分布进行贝叶斯估计的结果。
- 可以改写成如下式
。
- 简化后,得
- 由于
非0即1,而
函数满足
,有
。
- 得
- 证明了前面的公式再m+1时成立,所以定理得证。
- 公式两边取对数,得
- 公式右边给出的量称为结构G的Cooper-Herskovits怕评分,简称
。
- 如果假设结构先验分布是均匀分布,那么用贝叶斯评分选择模型就等于是用CH评分来选择模型。
- 在使用CH评分之前,首先需要选定参数先验分布
中的超参数
。
- 在实际中,人们往往规定一个等价样本a和一个先验贝叶斯网络
,并且利用下式得到
: