最大似然估计的应用

一、似然函数

已知有一组样本X1,X2,...Xn,X服从分布律P{X=x} = p(x;θ),又设x1,x2,...xn是相应于样本X1,X2,...Xn的一个样本值,(已知分布,所以可以知道样本Xi的值取到xi的概率,也就可以知道,对于所有的样本来说X1,X2,...Xn取到x1,x2,...xn的概率。)
那么 ,若是 已知一组数据为x1,x2,...xn,那么可以认为,这是一组从样本中采样得到的值,那么事件{X1=x1,X2=x2,...Xn=xn}的发生的概率为

这一概率随着θ的取值而变化,他是θ的函数,L(θ)称为样本的似然函数。(这里的x1,x2,...xn是已知的样本值,都是常数。)

通俗的讲就是,我现在手里有一组数据,也知道这组数据的样本服从什么分布(不知道的就假设一个),那么我就可以认为每个数据是一个事件,发生的概率为P{X=x} = p(x;θ),那么这整组数据,是连续对样本采样得到的一个事件,这个事件发生的概率就是所有小事件的乘积。(也可以认为这组数据,是不断地对服从一定分布的样本采样得到的

二、最大似然估计法

由上面可知,假使现在有一组数据,样本服从一定分布,但是分布的参数θ并不知道,怎么求得这个θ?

由上面可知,既然事情已经发生了,那么就说明在参数θ下,这个事件发生(取得的手中的样本值)的概率L(θ)比较大,若估计出一个θ1和θ2,函数L(θ1)<L(θ2),那么我们就认为θ2更接近于参数θ,因为θ2更能使这件事情发生。所以,我们就是想要找到一个参数θ,使这个事件尽可能的发生,也就是说,L(θ)要尽可能的大

能使L(θ)最大的值,就作为参数的最大似然估计值。

三、最大似然估计法的应用

无论是在有监督还是无监督,判别模型还是生成模型,但凡是和概率有挂钩的,最终是模型是预测概率的,都少补了最大似然估计的应用。

3.1、有监督学习

3.1.1 逻辑回归分类(判别模型==>条件概率)
  • 目标:对于新来的样例,预测其属于y=1 该类的概率

  • 已有数据:样例x,标签y。

  • 事件:在样例X(i)=x(i)的条件下,类别是y。(这是已知的,这个事件也是服从一个由参数θ控制的分布的。)
    于是得到模型:

对于所有的样本来说,在样例取得m个值的情况下,m个类别分别是y的概率。就是这些小事件一起发生的概率。于是有极大似然函数:

image.png

于是此时,找到使L(θ)最大的参数θ,就能够使上述事件尽可能的发生, 也是最接近实际值的θ了。于是可以用来预测。

3.1.2、高斯判别模型(生成模型 ==>联合分布)

为什么是生成模型,因为这里认为,数据(样本,类别)都是在满足这些分布的情况下生成的。
判别的时候,模型表达的意思 ,“先采样生成类别y,再采样生成新来样例xi”,这个事件发生的概率,那个大,就说明更符合实际情况。比如在类别是1的情况下, 采样生成新来样例的概率是0.6,在类比是2的情况下采样生成新来样例的概率 是0.8,那么新来阳历属于类比2的情况更符合实际。

  • 目标:每个类别服从一个分布P(Y=y) = p(y),确定类别以后每个样例也服从一个分布P(X=x|Y=y) ~p,学习完后,最终可以用“先采样生成一个类别标签,在已知类别标签的情况下采样生成新来样例”的概率,来判断数据哪一类 。
  • 数据:样例x,标签y
  • 事件:1、同时观测到(x,y),于是我们可以认为一个事件是(X=x,Y=y)同时发生。2、由联合分布公式可知,p(x,y)=p(x|y)p(y)。于是我们也可以认为,一个事件(x,y)是 先采样得到y,再在y的条件下采样生成x得到的 。
    所以此时,我们想要知道的是,y的分布(伯努利分布),以及在y确定的情况下x的分布(多值高斯分布),于是可以得到模型。

已有的m个数据对,就是取到m个(x,y)数据对的事件,它发生的概率为:

找到上式中的参数,使上述事件尽可能的发生,就是要估计的参数了。

并且,参数的实际意义是 可以根据表达式理解出来的。也就是最接近似然函数的情况下,参数的理想状况。
比如对上面目标函数求导以后得到各参数的值。其中

这里的φ代表类别是1的概率,就等于 样本中y=1对的个数除以样本总数m。

3.2、无监督学习

  • 目标,对于新来的样例,预测其属于某一类(k个类)的概率
  • 已有数据: 样例x
  • 事件:不同于有监督学习中,(有监督:一个事件是(X=x,Y=y)同时发生,y已经确定,所以可以直接用p(x,y)=p(x|y)p(y)来 表示此事件。)
    此时的每个事件,就是样例x发生。(但是每个样例都有k个可能的类与之对应,所以需要全概率公式。)所以得到每个事件的模型:

那么数据就是代表着,m个事件X=x同时发生的概率 :

但是,这个式子一开始并不好求,于是我们先随机为每个样例选一个相应的类别,,,接下来就是EM思想,可以看EM算法这一块。

每个类别的概率是所有样例的后验概率的平均值(参考GMM)

总之,最大化这个似然函数,最终得到的,也是我们想要的参数。

3.3 最大后验概率估计(MAP)

逻辑回归中的模型是,认为θ是一个常数,一个事件就是,在样例X=x的条件下,类别是y的概率。

而贝叶斯学派就认为,θ是一个随机变量,最大后验概率估计的模型是:

也就是认为,是先采样生成θ以后,再在x和θ的情况下,类别是y的概率。

二者(逻辑回归与MAp)都是通过极大似然来找到合适的θ,为什么说贝叶斯最大后验概率估计就能跟好的克服过拟合问题呢?

在《规则化和模型选择》中给出了解释。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 224,242评论 6 522
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 95,953评论 3 402
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 171,299评论 0 366
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 60,709评论 1 300
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 69,723评论 6 399
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 53,236评论 1 314
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 41,629评论 3 428
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 40,594评论 0 279
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 47,135评论 1 324
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 39,156评论 3 345
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 41,285评论 1 354
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,914评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,600评论 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 33,073评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 34,203评论 1 275
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,798评论 3 381
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 46,339评论 2 365

推荐阅读更多精彩内容