大师兄的贝叶斯网络学习笔记(二十六):贝叶斯网络与概率推理(十)
大师兄的贝叶斯网络学习笔记(二十八):贝叶斯网络(二)
- 贝叶斯网络最初是作为一种处理专家系统中不确定性的工具而被提出的。近年来,它越来越多地被用于数据分析,以揭示和刻画数据中所蕴含的规律。
- 贝叶斯网络学习指的是通过分析数据而获得贝叶斯网络的过程,它包括参数学习和结构学习两种情况。
- 参数学习值得是已知网络结构,确定网络参数的问题;
- 结构学习则是既要确定网络结构,又要确定网络参数。
一、贝叶斯网络与数据分析
- 设
为一组随机变量,由X中所有或部分变量的状态所构成的向量成为一个数据样本(data sample)。
- 一些数据样本放在一起组成数据组(data collection),有时被简称为数据,数据一般以表的形式给出。
| 1 | 1 | 2 | 2 | 1 |
| 1 | 1 | 2 | 1 | 2 |
| 1 | - | 2 | 1 | 1 |
| - | 1 | 2 | 2 | - |
- 上表给出了一组关于5个变量
的数据:
- 其中每一列对应一个变量
- 每一行达标一个数据样本
- 在前两个样本中,所有变量的状态都是已知的,称为完整样本(complete sample)。
- 后两个样本,部分变量的状态未知,称为缺值样本(incomplete sample)。
- 只含有完整样本的数据组成为完整数据组(complete data)。
- 含有缺值样本的数据组则称为缺值数据组(incomplete data)。
- 用贝叶斯网络来分析一组数据,就是要从这组数据出发,找到一个相对于数据在某种意义下最优的贝叶斯网络。
- 所得的结果是关于数据D的一个统计模型,称为贝叶斯网络模型(Bayesian network model)。
- 一个贝叶斯网络N有定性和定量两个方面的内容:
- 定性内容包括变量之间的网络机构,记为G;
- 定量内容则包括个变量的概率分布,记为θ。
- 所以,N又可以写成二元组(G,θ)的形式。
- 在讨论数据分析时,G被称为模型结构(model structure),简称为模型。
- 而θ则称为模型参数(model parameters)。
- 通过数据分析获得贝叶斯网络模型的过程称为贝叶斯网络学习(Bayesian network learning)。
- 当模型结构已知时,贝叶斯网络学习又简称为参数学习(parameter learning)。
- 当模型结构未知时,称为结构学习(structure learning) 。