机器学习基础·参数估计

摘要

极大似然估计(MLE),贝叶斯估计(BE),最大后验估计(MAP),共轭先验

正文
  1. 问题描述
    假设观测数据X={\{x_1,x_2,...,x_n\}}是由p(x\mid \theta)生成的,现在需要估计参数\theta
  2. MLE
    MLE假设产生数据的模型参数\theta是固定的,通过最大化似然函数直接求解参数\theta,即求解如下问题:\theta_{\tiny MLE}=\arg \max_\theta \prod_{i=1}^np(x_i\mid \theta)一般转换为对数似然来求解:\theta_{\tiny MLE}=arg \max_\theta \sum_{i=1}^n\ln p(x_i\mid \theta)
  3. BE
    BE假设产生数据的模型参数\theta也是随机变量,有其自身的分布\pi(\theta),求解先得到在观测数据X下的后验分布\pi(\theta\mid X),再由取\pi(\theta\mid X)的期望作为估计的参数,即:\pi(\theta\mid X)=\frac{p(X\mid \theta)\pi(\theta)}{\int_\theta p(X\mid \theta)\pi(\theta)d\theta} \ ,\ \theta_{\tiny BE}=E[\pi(\theta\mid X)]在使用BE时需要事先给定\theta的先验\pi(\theta),一般使用p(x)的共轭先验。
  4. MAP
    MAP对BE作了简化,认为在大部分情况下,参数值最有可能出现在概率最大点附近,所以直接求解最大化后验概率\pi(\theta\mid X)\theta,即:\theta_{\tiny MAP}=\arg \max_\theta\pi(\theta\mid X)=\arg \max_\theta(\ln p(X\mid \theta)+\ln\pi(\theta))其中ln\pi(\theta)可以认为是结构化风险中的正则项。
  5. 共轭先验
    在BE过程中选取先验分布时一般选取为\thetap(\theta)中具有相同形式的分布作为\theta的先验分布\pi(\theta),先验和后验分布具有相同形式的称为共轭先验。在[2]中提到共轭先验的选取有如下好处:a).符合直观,先验分布和后验分布应该是相同形式的;b).可以给出后验分布的解析形式;c).可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。当然也存在问题:共轭先验的选取很大程度上是基于数学理论的方便性,带有很强的主观色彩,而这也是饱受频率学派诟病的一点。频率学派认为,只有在先验分布有一种不依赖主观的意义,且能根据适当的理论或以往的经验决定时,才允许在统计推断中使用先验分布,否则就会丧失客观性。
    常见的共轭先验:二项分布中参数\mu的共轭分布为Beta分布;多项式分布的参数\mu_k的共轭分布为狄利克雷分布;高斯分布参数均值\mu的共轭分布为高斯分布,精度\Sigma^{-1}的共轭分布为Gamma分布或Wishart分布。
参考资料

[1] Bishop M. Pattern Recognition and Machine Learning[M].Springer,2006.
[2] https://zhuanlan.zhihu.com/p/61593112
[3] https://blog.csdn.net/liu1194397014/article/details/52766760
[4] https://www.jianshu.com/p/9c153d82ba2d
[5] https://www.cnblogs.com/eilearn/p/9433911.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容