大师兄的贝叶斯网络学习笔记(二十九):贝叶斯网络(三)
大师兄的贝叶斯网络学习笔记(三十一):贝叶斯网络(五)
三、单参数贝叶斯估计
2. 贝叶斯估计的计算
- 考虑投掷图钉问题1:
- 由于没有关于投掷图钉的先验知识,所以假设先验分布是贝塔分布B[0,0]
- 于是,
,而
![]()
- 下一次投掷图钉得到头朝上的概率为:
![]()
- 考虑投掷图钉问题2:
- 由于知道投掷正常硬币正面朝上的概率为1/2,而且问题所涉及的硬币应该是正常硬币,但又不能完全排除它是魔术硬币的可能性
- 所以假设先验分布是贝塔分布B[100,100]
- 于是
,而
。
- 根据贝叶斯估计,下一次投得硬币正面朝上的概率为
,这里样本量m=6很小,先验知识占主导作用。
- 另一方面,如果假设共投掷硬币6万次,得到2万次正面朝上,4万次反面朝上,即
,那么下一次投币正面朝上的概率是
。
3. 共轭分布族
- 再看公式
:
- 它的右边是先验概率分布
的乘积。
- 在i.i.d假设下,
是二项似然函数,上面
来自贝塔分布族。
- 这是因为贝塔分布族是二项似然函数的共轭分布族(conjugate family),即如果先验分布
是贝塔分布,那么后验分布
也是贝塔分布。
- 这使得贝叶斯估计的计算简单易行。
- 事实上,如果假设
来自另一分布族,比如正态分布,那么贝叶斯估计计算起来就要困难得多。
- 另外,共轭分布族的使用也使得我们可以清楚地了解到贝叶斯估计是怎样把先验知识与观测数据结合到一起。
- 假设
为贝塔分布
实际上就是做如下假设:
- 先验知识相当于一组包含
哥头朝上和
个尾朝上的样本的虚拟数据(imaginary data)。
- 贝叶斯估计把这些虚拟数据和实际观测所得到的数据放到一起,得到一组由
个头朝上和
个尾朝上的样本所组成的数据,于是
。
4. 顺序学习与批量学习
- 机器学习有两种模式,即顺序学习与批量学习。
- 顺序学习(sequential learning)指一个一个地处理数据样本,每处理一个样本就更新一次参数,而且更新是在当前参数值的基础上进行的。
- 批量学习(batch learning)则指同时处理所有数据,一次性得到参数估计。在处理完当前数据之后的一段时间内,如果有新的数据出现,就把新老数据混合在一起,重新进行参数估计,这个过程完全不依赖以前的估计。
- 贝叶斯估计既可以用于顺序学习,也可以用于批量学习,而最大似然估计只能用于批量学习。