大师兄的贝叶斯网络学习笔记(三十):贝叶斯网络(四)

大师兄的贝叶斯网络学习笔记(二十九):贝叶斯网络(三)
大师兄的贝叶斯网络学习笔记(三十一):贝叶斯网络(五)

三、单参数贝叶斯估计

2. 贝叶斯估计的计算
  • 考虑投掷图钉问题1:
  • 由于没有关于投掷图钉的先验知识,所以假设先验分布是贝塔分布B[0,0]
  • 于是,a_h=a_t=0,而m_k=2,m_t=4
  • 下一次投掷图钉得到头朝上的概率为:\frac_{2+0}{6+0}=\frac{2}{6}
  • 考虑投掷图钉问题2:
  • 由于知道投掷正常硬币正面朝上的概率为1/2,而且问题所涉及的硬币应该是正常硬币,但又不能完全排除它是魔术硬币的可能性
  • 所以假设先验分布是贝塔分布B[100,100]
  • 于是a_h=a_t=100,而m_h=2,m_t=4
  • 根据贝叶斯估计,下一次投得硬币正面朝上的概率为\frac{2+100}{6+200}\approx \frac{1}{2},这里样本量m=6很小,先验知识占主导作用。
  • 另一方面,如果假设共投掷硬币6万次,得到2万次正面朝上,4万次反面朝上,即m_h=20000,m_t=40000,那么下一次投币正面朝上的概率是\frac{20000+100}{60000+200}\approx \frac{2}{6}
3. 共轭分布族
  • 再看公式p(\theta|D) \propto p(\theta)L(\theta|D)
  • 它的右边是先验概率分布p(\theta)和似然函数L(\theta|d)的乘积。
  • 在i.i.d假设下,L(\theta|D)是二项似然函数,上面p(\theta)来自贝塔分布族。
  • 这是因为贝塔分布族是二项似然函数的共轭分布族(conjugate family),即如果先验分布p(\theta)是贝塔分布,那么后验分布p(\theta)|D)也是贝塔分布。
  • 这使得贝叶斯估计的计算简单易行。
  • 事实上,如果假设p(\theta|D)来自另一分布族,比如正态分布,那么贝叶斯估计计算起来就要困难得多。
  • 另外,共轭分布族的使用也使得我们可以清楚地了解到贝叶斯估计是怎样把先验知识与观测数据结合到一起。
  • 假设p(\theta|D)为贝塔分布B[a_h,a_t]实际上就是做如下假设:
  • 先验知识相当于一组包含a_h哥头朝上和a_t个尾朝上的样本的虚拟数据(imaginary data)
  • 贝叶斯估计把这些虚拟数据和实际观测所得到的数据放到一起,得到一组由m_h+a_h个头朝上和m_t+a_t个尾朝上的样本所组成的数据,于是p(\theta|D)是B[m_h+a_h,m_t+a_t]
4. 顺序学习与批量学习
  • 机器学习有两种模式,即顺序学习批量学习
  • 顺序学习(sequential learning)指一个一个地处理数据样本,每处理一个样本就更新一次参数,而且更新是在当前参数值的基础上进行的。
  • 批量学习(batch learning)则指同时处理所有数据,一次性得到参数估计。在处理完当前数据之后的一段时间内,如果有新的数据出现,就把新老数据混合在一起,重新进行参数估计,这个过程完全不依赖以前的估计。
  • 贝叶斯估计既可以用于顺序学习,也可以用于批量学习,而最大似然估计只能用于批量学习。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容