机器学习基础·参数估计

摘要

极大似然估计(MLE)，贝叶斯估计(BE)，最大后验估计(MAP)，共轭先验

正文

问题描述
假设观测数据 $X={\{x_1,x_2,...,x_n\}}$ 是由 $p(x\mid \theta)$ 生成的，现在需要估计参数 $\theta$ 。
MLE
MLE假设产生数据的模型参数 $\theta$ 是固定的，通过最大化似然函数直接求解参数 $\theta$ ，即求解如下问题： $\theta_{\tiny MLE}=\arg \max_\theta \prod_{i=1}^np(x_i\mid \theta)$ 一般转换为对数似然来求解： $\theta_{\tiny MLE}=arg \max_\theta \sum_{i=1}^n\ln p(x_i\mid \theta)$
BE
BE假设产生数据的模型参数 $\theta$ 也是随机变量，有其自身的分布 $\pi(\theta)$ ，求解先得到在观测数据 $X$ 下的后验分布 $\pi(\theta\mid X)$ ，再由取 $\pi(\theta\mid X)$ 的期望作为估计的参数，即： $\pi(\theta\mid X)=\frac{p(X\mid \theta)\pi(\theta)}{\int_\theta p(X\mid \theta)\pi(\theta)d\theta} \ ,\ \theta_{\tiny BE}=E[\pi(\theta\mid X)]$ 在使用BE时需要事先给定 $\theta$ 的先验 $\pi(\theta)$ ，一般使用 $p(x)$ 的共轭先验。
MAP
MAP对BE作了简化，认为在大部分情况下，参数值最有可能出现在概率最大点附近，所以直接求解最大化后验概率 $\pi(\theta\mid X)$ 的 $\theta$ ，即： $\theta_{\tiny MAP}=\arg \max_\theta\pi(\theta\mid X)=\arg \max_\theta(\ln p(X\mid \theta)+\ln\pi(\theta))$ 其中 $ln\pi(\theta)$ 可以认为是结构化风险中的正则项。
共轭先验
在BE过程中选取先验分布时一般选取为 $\theta$ 在 $p(\theta)$ 中具有相同形式的分布作为 $\theta$ 的先验分布 $\pi(\theta)$ ，先验和后验分布具有相同形式的称为共轭先验。在[2]中提到共轭先验的选取有如下好处：a).符合直观，先验分布和后验分布应该是相同形式的；b).可以给出后验分布的解析形式；c).可以形成一个先验链，即现在的后验分布可以作为下一次计算的先验分布，如果形式相同，就可以形成一个链条。当然也存在问题：共轭先验的选取很大程度上是基于数学理论的方便性，带有很强的主观色彩，而这也是饱受频率学派诟病的一点。频率学派认为，只有在先验分布有一种不依赖主观的意义，且能根据适当的理论或以往的经验决定时，才允许在统计推断中使用先验分布，否则就会丧失客观性。
常见的共轭先验:二项分布中参数 $\mu$ 的共轭分布为 $Beta$ 分布；多项式分布的参数 $\mu_k$ 的共轭分布为狄利克雷分布；高斯分布参数均值 $\mu$ 的共轭分布为高斯分布，精度 $\Sigma^{-1}$ 的共轭分布为 $Gamma$ 分布或 $Wishart$ 分布。