MLE和MAP,如何从数据样本估计参数?
其实机器学习包括深度学习的模型都是在学习数据的分布。那么如何根据已有数据,估计影响数据的概率分布的参数(比如均匀分布的最大最小值,正态分布的均值和标准差),从而确定一个模型,尽量准确地预测新数据?
MLE 的做法就是完全相信数据,最有可能产生现在的数据的模型,就是最理想的。
而MAP认为,不能完全相信观测到的数据,因为可能存在偏差。如果能根据经验得到参数θ的概率分布(先验概率),那么同时考虑数据和参数的先验分布才能得到最优的结果。
用统计学中频率学派和贝叶斯学派的思想来描述就是,频率学派认为参数是常数,不断实验就能得到结论。而贝叶斯学派认为参数是变量,也存在一个描述参数的概率分布,先验分布就是我们对参数概率分布的猜测。
用投硬币作为例子,我们想要知道一个投出硬币的平均距离,按照频率学派的观点,不断实验不断投,取平均值就好了。而按照贝叶斯学派的观点,这个平均值不存在,也许可以理解为这个人每时每刻的状态都不同,今天可能没吃好,明天可能健身了,所以实验得到的数据也存在偏差,我们根据他以往投硬币的距离或者按照正常人投硬币的距离假设好一个模型,再根据这个假设以及观测到的数据得到最终的结论。很难说哪个方法好,按照我浅显的理解,似然估计很大程度上取决于样本的质量,而后验估计取决于先验模型的准确性。
概率和似然
概率:对于离散变量,概率就是分布律的对应值。如果是连续变量,其实说的是这件事在概率分布函数下对应的积分,再投出一枚硬币,距离是任何一个数字的概率其实都接近于零,而落某个区间的概率,就可以通过积分获得。
似然(函数):总之概率密度函数是一个关于数据x的函数,而似然函数的变量是参数θ,是在确定的样本下,某个参数模型给出的这个样本发生的可能性。 ,似然函数的值就等于当前样本在条件为某个θ下的条件概率。
MLE
最大似然估计,就是最大化似然函数,找到这样一组参数θ, 使得当前观测到的数据是最有可能发生的,那就是我们的理想参数。
还是投硬币的例子,如果一个人投出硬币的距离是以某一个数为均值的正态分布。经过多次实验,我们就可以通过似然函数得到参数的最大似然估计量作为理想参数,没错,就是所有数据样本的均值! 好像是废话,不过这是因为我们选了个正态分布,对于一些更复杂的模型,参数就不是均值标准差这么明显的了。可以参考一下对数几率回归中对极大似然估计的应用。和最小化误差的线性模型相比,对数几率模型就是在最大化似然。
MAP 最大后验估计
MLE其实对应的是机器学习中经验风险最小化的策略,但是容易过拟合。想要避免过拟合就需要用到结构风险最小化的策略,MAP可以看成是在通过先验概率引入正则化的效果。
MAP是贝叶斯学派的一个方法,贝叶斯学派认为最优参数θ不存在,人们只能根据观测不断地修正模型。先验分布是θ的一个假设分布,而后验概率,即在观测到当前数据的调价下,θ的概率分布,通过贝叶斯定理,后验概率取决于先验概率和假设成立下x的概率分布。
我们继续投硬币,最大后验估计认为,投硬币的概率模型也是变化的,参数没有办法确定。也就是说,我们相信均值是一个变量并且符合一定的概率分布g(θ),先验概率可以通过这个人以前能投多远,或者正常人投硬币距离的均值分布来获得。最大后验估计中的后验概率,其实就是在样本出现的情况下,参数为θ的条件概率。具体是通过贝叶斯公式计算的,这里推荐3B1B视频对贝叶斯公示的证明。
回过头对比最大似然估计,就是多加了一个参数的先验概率的区别,当参数不变也就是说g(θ)为常数时,两者是代价的。就好像结构风险最小化,其实就是经验风险最小化加上正则化。
经验风险最小化,结构风险最小化
MLE和MAP也可以被分别描述为经验风险最小化和结构风险最小化的例子。 MAP比MLE除了数据以外多考虑一个参数的先验分布,而结构风险最小化则是经验风险最小化再结合正则化项。