概率模型的训练过程其实是参数估计(parameter estimation)的过程。对于参数的估计,统计学界的两个学派提供了各自的解决方案:频率学派(Frequentist)认为参数虽然未知,但却是客观存在的固定值,所以可以通过优化似然函数等准则来确定参数值;贝叶斯学派(Bayesian)则认为参数是未观察到的随机变量,其本身也有分布,因此,可假设参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。
定义数据集如下:
个样本,每个样本都是
维向量,表示每个样本具有
个特征。我们假设每个观测都是由
生成。
频率派
中的
是一个固定的参数。对于
个独立观测来说观测集的联合概率为
对于 的求解,我们采用最大对数似然估计(Maximum likelihood estimate,MLE):
贝叶斯派
贝叶斯派认为 的参数
是一个未观测到的随机变量且满足某个先验分布,我们这里假设
。根据贝叶斯定理,基于观测集参数的后验分布求法如下
其中叫做似然。
求 的值,我们使用最大后验概率(maximum a posteriori probability,MAP)方法
得到后,便得到其后验概率
小结:尽管贝叶斯学派和频率学派的部分观点受到质疑,但是两大学派如今仍然发挥着重要作用,对实际应用中的一些问题,两种学派的方法都能给出比较准确的解决方案。对于我们应用者来说,针对不同的场景,选择合适的方法才是主要的。
参考:
李航统计机器学习
周志华西瓜书