大师兄的贝叶斯网络学习笔记（三十一）：贝叶斯网络（五）

四、单变量网络参数估计

设X由r个取值， $\Omega_X=\{x_1,x_2,...,x_r \}$

网络的参数包括 $\theta_i=P(X=x_1),i=1,2,...,r$

用θ记向量 $(\theta_1,\theta_2,...,\theta_r)$

数据 $D=(D_1,D_2,...,D_m)$ ，其中满足 $X = x_1$ 的样本个数是 $m_i$

则有 $L(\theta|D) = \prod^r_{i=1}\theta^{m_i}_i$

具有这个形式的似然函数称为多项似然函数(multinomial likelihood function)，其中的 $\{m,|i=1,2,...,r\}$ 是充分统计量。
相应的对数似然函数为 $l(\theta|D)=\sum^r_{i=1}m_i\log\theta_i$ 。
θ的最大似然估计 $\theta^*=(\theta^*_1,\theta^*_2,...,\theta^*_r)$ 由 $\theta^*_m=\frac{m_i}{m}$ 给出:

其中 $m=\sum^r_{i=1}m_i$ 是样本量。

考虑θ的贝叶斯估计，多想似然函数的共轭分布族是Dirichlet分布族，所以一般假设先验分布 $p(\theta)$ 是Dirichlet分布 $D[a_1,a_2,...,a_r]$ ，即：p(\theta)=\frac{\Gamme(a)}{\prod^{r_{i=1}\Gamma(a_i)}\prod}r_{i=1}\theta^{a_i-1}_i

其中 $a=\sum^r_{i=1}a_i$

当r=1时，Dirichlet分布 $D[a_1,a_2]$ 就是β分布 $B[a_1,a_2]$ 。

假设 $p(\theta)$ 为Dirichlet分布 $D[a_1,a_2,...,a_r]$ 就等于假设关于θ的先验知识相当于a个虚拟数据样本，其中满足 $X=x_i$ 的样本数为 $a_i$ 。
所以a称为等价样本量。
θ的后验分布 $p(\theta|D)$ 为 $p(\theta|D)\propto\prod^r_{i=1}\theta_i^{m_i+a_i-1}$
即是 $p(\theta|D)$ 是Dirichlet分布 $D[m_1+a_1,m_2+a_2,...,m_r+a_r]$ 。
关于下一个样本 $D_{m+1}$ 的概率分布的贝叶斯估计为： $P(D_{m+1}=x_i|D)=\int\theta_ip(\theta|D)d\theta=\frac{m_i+a_i}{m+a}$
当样本量m很小时，这个估计主要以来先验知识。
当样本量m增大时，这个估计越来越多地依赖于数据，越来越接近最大似然估计 $\frac{m_i}{m}$ ，而先验知识的影响越来越小。