频率学派 极大似然估计MLE,贝叶斯学派 最大后验估计MAP 2021-05-11

MLE和MAP,如何从数据样本估计参数?

其实机器学习包括深度学习的模型都是在学习数据的分布。那么如何根据已有数据,估计影响数据的概率分布的参数(比如均匀分布的最大最小值,正态分布的均值和标准差),从而确定一个模型,尽量准确地预测新数据?

不同参数下的正态分布,μ代表均值,σ代表标准差

MLE 的做法就是完全相信数据,最有可能产生现在的数据的模型,就是最理想的。

而MAP认为,不能完全相信观测到的数据,因为可能存在偏差。如果能根据经验得到参数θ的概率分布(先验概率),那么同时考虑数据和参数的先验分布才能得到最优的结果。

用统计学中频率学派和贝叶斯学派的思想来描述就是,频率学派认为参数是常数,不断实验就能得到结论。而贝叶斯学派认为参数是变量,也存在一个描述参数的概率分布,先验分布就是我们对参数概率分布的猜测。

用投硬币作为例子,我们想要知道一个投出硬币的平均距离,按照频率学派的观点,不断实验不断投,取平均值就好了。而按照贝叶斯学派的观点,这个平均值不存在,也许可以理解为这个人每时每刻的状态都不同,今天可能没吃好,明天可能健身了,所以实验得到的数据也存在偏差,我们根据他以往投硬币的距离或者按照正常人投硬币的距离假设好一个模型,再根据这个假设以及观测到的数据得到最终的结论。很难说哪个方法好,按照我浅显的理解,似然估计很大程度上取决于样本的质量,而后验估计取决于先验模型的准确性。

概率和似然

离散变量,分布律

概率:对于离散变量,概率就是分布律的对应值。如果是连续变量,其实说的是这件事在概率分布函数下对应的积分,再投出一枚硬币,距离是任何一个数字的概率其实都接近于零,而落某个区间的概率,就可以通过积分获得。


连续变量,概率密度的积分

似然(函数):总之概率密度函数是一个关于数据x的函数,而似然函数L(\theta|x)的变量是参数θ,是在确定的样本下,某个参数模型给出的这个样本发生的可能性。 L(\theta|x)=f(x|\theta),似然函数的值就等于当前样本在条件为某个θ下的条件概率。

似然和概率,来源StatQuest,另外还可以参考概率论与数理统计浙大四版

MLE

最大似然估计

最大似然估计,就是最大化似然函数,找到这样一组参数θ, 使得当前观测到的数据是最有可能发生的,那就是我们的理想参数。

还是投硬币的例子,如果一个人投出硬币的距离是以某一个数为均值的正态分布。经过多次实验,我们就可以通过似然函数得到参数的最大似然估计量作为理想参数,没错,就是所有数据样本的均值! 好像是废话,不过这是因为我们选了个正态分布,对于一些更复杂的模型,参数就不是均值标准差这么明显的了。可以参考一下对数几率回归中对极大似然估计的应用。和最小化误差的线性模型相比,对数几率模型就是在最大化似然。

线性模型与对数几率模型
最大似然估计

MAP 最大后验估计

MLE其实对应的是机器学习中经验风险最小化的策略,但是容易过拟合。想要避免过拟合就需要用到结构风险最小化的策略,MAP可以看成是在通过先验概率引入正则化的效果。

MAP是贝叶斯学派的一个方法,贝叶斯学派认为最优参数θ不存在,人们只能根据观测不断地修正模型。先验分布是θ的一个假设分布,而后验概率,即在观测到当前数据的调价下,θ的概率分布,通过贝叶斯定理,后验概率取决于先验概率和假设成立下x的概率分布。

我们继续投硬币,最大后验估计认为,投硬币的概率模型也是变化的,参数没有办法确定。也就是说,我们相信均值是一个变量并且符合一定的概率分布g(θ),先验概率可以通过这个人以前能投多远,或者正常人投硬币距离的均值分布来获得。最大后验估计中的后验概率,其实就是在样本出现的情况下,参数为θ的条件概率。具体是通过贝叶斯公式计算的,这里推荐3B1B视频对贝叶斯公示的证明。

回过头对比最大似然估计,就是多加了一个参数的先验概率的区别,当参数不变也就是说g(θ)为常数时,两者是代价的。就好像结构风险最小化,其实就是经验风险最小化加上正则化。

贝叶斯定律,H表示假设,E表示证据,推荐3B1B视频对该定理的证明,大概就是在说观测数据能有多可靠。
贝叶斯定理用于连续概率分布
MAP

经验风险最小化,结构风险最小化

MLE和MAP也可以被分别描述为经验风险最小化和结构风险最小化的例子。 MAP比MLE除了数据以外多考虑一个参数的先验分布,而结构风险最小化则是经验风险最小化再结合正则化项。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容