频率学派和贝叶斯学派

概率模型的训练过程其实是参数估计(parameter estimation)的过程。对于参数的估计,统计学界的两个学派提供了各自的解决方案:频率学派(Frequentist)认为参数虽然未知,但却是客观存在的固定值,所以可以通过优化似然函数等准则来确定参数值;贝叶斯学派(Bayesian)则认为参数是未观察到的随机变量,其本身也有分布,因此,可假设参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。

定义数据集如下:

X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}
N 个样本,每个样本都是 p 维向量,表示每个样本具有p个特征。我们假设每个观测都是由 p(x|\theta) 生成。

频率派

p(x|\theta)中的 \theta 是一个固定的参数。对于 N 个独立观测来说观测集的联合概率为 p\left( x|\theta \right) =\prod_{i=1}^N{p\left( x_i|\theta \right)}
对于 \theta 的求解,我们采用最大对数似然估计(Maximum likelihood estimate,MLE):

\hat{\theta}_{MLE}=arg\underset{\theta}{\max}\log p\left( x|\theta \right) =arg\underset{\theta}{\max}\sum_i^N{\log p\left( x_i|\theta \right)}

贝叶斯派

贝叶斯派认为 p(x|\theta) 的参数\theta是一个未观测到的随机变量且满足某个先验分布,我们这里假设 \theta\sim p(\theta) 。根据贝叶斯定理,基于观测集参数的后验分布求法如下

p\left( \theta |x \right) =\frac{p\left( x|\theta \right) \cdot p\left( \theta \right)}{p\left( x \right)}=\frac{p\left( x|\theta \right) \cdot p\left( \theta \right)}{\int\limits_{\theta}{p}\left( x|\theta \right) \cdot p\left( \theta \right) d\theta}\propto p\left( x|\theta \right) \cdot p\left( \theta \right)
其中p\left( x|\theta \right)叫做似然。

\theta 的值,我们使用最大后验概率(maximum a posteriori probability,MAP)方法

\hat{\theta}_{MAP}=arg\underset{\theta}{\max}p\left( \theta |x \right) =arg\underset{\theta}{\max}p\left( x|\theta \right) \cdot p\left( \theta \right)

得到\theta后,便得到其后验概率
p\left( \theta |x \right) =\frac{p\left( x|\theta \right) \cdot p\left( \theta \right)}{\int\limits_{\theta}{p}\left( x|\theta \right) \cdot p\left( \theta \right) d\theta}

小结:尽管贝叶斯学派和频率学派的部分观点受到质疑,但是两大学派如今仍然发挥着重要作用,对实际应用中的一些问题,两种学派的方法都能给出比较准确的解决方案。对于我们应用者来说,针对不同的场景,选择合适的方法才是主要的。

参考:
李航统计机器学习
周志华西瓜书

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容