大师兄的贝叶斯网络学习笔记(三十一):贝叶斯网络(五)

大师兄的贝叶斯网络学习笔记(三十):贝叶斯网络(四)

四、单变量网络参数估计

  • 考虑由一个多值变量X组成的贝叶斯网络:
  • 设X由r个取值,\Omega_X=\{x_1,x_2,...,x_r \}
  • 网络的参数包括\theta_i=P(X=x_1),i=1,2,...,r
  • 用θ记向量(\theta_1,\theta_2,...,\theta_r)
  • 由于概率分布的规范性,\sum^r_{i=1}\theta_i=1,实际上该网络只有r-1个独立参数。
  • 先考虑θ的最大似然估计,设有一组i.i.d:
  • 数据D=(D_1,D_2,...,D_m),其中满足X = x_1的样本个数是m_i
  • 则有L(\theta|D) = \prod^r_{i=1}\theta^{m_i}_i
  • 具有这个形式的似然函数称为多项似然函数(multinomial likelihood function),其中的\{m,|i=1,2,...,r\}是充分统计量。
  • 相应的对数似然函数为l(\theta|D)=\sum^r_{i=1}m_i\log\theta_i
  • θ的最大似然估计\theta^*=(\theta^*_1,\theta^*_2,...,\theta^*_r)\theta^*_m=\frac{m_i}{m}给出:
  • 其中m=\sum^r_{i=1}m_i是样本量。
  • 考虑θ的贝叶斯估计,多想似然函数的共轭分布族是Dirichlet分布族,所以一般假设先验分布p(\theta)是Dirichlet分布D[a_1,a_2,...,a_r],即:p(\theta)=\frac{\Gamme(a)}{\prodr_{i=1}\Gamma(a_i)}\prodr_{i=1}\theta^{a_i-1}_i
  • 其中a=\sum^r_{i=1}a_i
  • 当r=1时,Dirichlet分布D[a_1,a_2]就是β分布B[a_1,a_2]
  • 假设p(\theta)为Dirichlet分布D[a_1,a_2,...,a_r]就等于假设关于θ的先验知识相当于a个虚拟数据样本,其中满足X=x_i的样本数为a_i
  • 所以a称为等价样本量。
  • θ的后验分布p(\theta|D)p(\theta|D)\propto\prod^r_{i=1}\theta_i^{m_i+a_i-1}
  • 即是p(\theta|D)是Dirichlet分布D[m_1+a_1,m_2+a_2,...,m_r+a_r]
  • 关于下一个样本D_{m+1}的概率分布的贝叶斯估计为:P(D_{m+1}=x_i|D)=\int\theta_ip(\theta|D)d\theta=\frac{m_i+a_i}{m+a}
  • 当样本量m很小时,这个估计主要以来先验知识。
  • 当样本量m增大时,这个估计越来越多地依赖于数据,越来越接近最大似然估计\frac{m_i}{m},而先验知识的影响越来越小。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容