今天睡了一下懒觉,九点半才起床,昨天吃火锅热气,今天要吃清淡一点了。
使学过机器学习的人,对机器学习中的MLE(极大似然估计)、MAP(最大后验估计)以及贝叶斯估计(Bayesian)仍有可能一知半解。对于一个基础模型,通常都可以从这三个角度去建模,比如对于逻辑回归(Logistics Regression)来说,因贝叶斯估计用的少,所以暂时不展开去讲:
MLE: Logistics Regression(逻辑回归)
MAP: Regularized Logistics Regression(加了正则化的逻辑回归)
先导知识点: 假设空间(Hypothesis Space
什么叫假设空间呢?我们可以这样理解。机器学习包含很多种算法,比如线性回归、支持向量机、神经网络、决策树、GDBT等等。我们在建模的时候,第一步就是要选择一个特定的算法比如“支持向量机”。一旦选择了一个算法,就相当于我们选择了一个假设空间。在一个假设空间里,我们通常会有无数种不同的解(或者可以理解成模型),一个优化算法(比如梯度下降法)做的事情就是从中选择最好的一个解或者多个解/模型,当然优化过程要依赖于样本数据。
第一种策略MLE
MLE,也叫最大似然估计,就是根据给出的参数求观测值(样本samples)的概率:P(D|W)
我觉得我们日常生活中求解概率值大部分都是使用了最大似然估计。
就直接根据参数去求观测值的最大概率,比如投硬币。
投五次概率分别是HTTTH,那么观测值就是HTTTH,W则是该H表示上面的概率,T表示下面的概率则(1-W)
所以就直接求解P(D|W) = w.(1-w).(1-w).(1-w).w,
求出该概率的最大似然估计,则可以得到该w的值,这就叫做最大似然估计求参数法。
第二种策略MAP
跟第一种策略不同的是,第二种策略是已经给出了w的以前的先验值,在前人曾经求出过,w的值是多少,那么我们就要根据观测值去更新更好的w
所以MAP的公式是P(W|D),那么根据贝叶斯公式可知:
P(W|D) = P(D|W).P(W)
所以我们可以看出,在求参数估计法的情况下,MLE和MAP的区别在于,是否有先验概率的情况。
先验概率也叫做Prior
MLE和MAP的探索
由上面可知,MAP就是在MLE的基础上加了Prior
那么当参数符合高斯分布的情况下,下图证明流程得知,
高斯分布的先验概率趋向于L2正则
那么当参数符合拉普拉斯分布的情况下,下图流程证明:
拉普拉斯先验概率趋向于L1正则
当数据样本非常多的时候,MAP趋向于MLE
当数据量非常大时,prior的值时固定的,那就非常值渺小了,所以两者就可以时相等的了。