概率建模中的参数估计-最大似然估计MLE

当我们用概率对一个问题进行建模后,最重要的就是如何求解其中的概率参数。
例如在朴素贝叶斯 中,我们通过X事件的相互独立假设,削减了参数量。那么如何求解这些参数(在简单的邮件分类问题中,我们直觉上通过统计计算,即可获得各个参数项的解,实际上这种直觉的方法,本身就是计算了其概率的极大似然)

一、Maximum Likelihood Estimate,MLE
    从最根本的定义上来讲,我们要求的是P(theta|D)最大,即在当前数据集上,参数theta的概率,并求得这个概率最大的theta。但是P(theta|D)很难计算,由posterior=likelihood * prior / evidence 。prior和evidence我们设为常数,则最大化这个后验概率就是最大化likelihood ie:P(D| theta),在假设所有样本独立同分布后,对P(X|theta)进行建模,则当前样本上的likelihood就是下面的似然函数。

0、朴素贝叶斯的参数估计:
P(Y=c) =Sum( I(yi=c) )/N
c为分类(比如垃圾邮件以及非垃圾邮件),N为样本总数,I为指示函数
即P(Y=c)这个参数的值(为垃圾,非垃圾邮件的概率)在当前N个样本的知识下,最大似然的估计为: (非)垃圾邮件总数 / 邮件总数。
同理,P(Xi = b | Y = c) 的概率也可以通过这样的统计得出其在当前N个样本知识下的最大似然的估计
在这里,最大似然从直觉上确实也等于相应特征词出现的期望。
如果用MLE来解释也是可以的,对垃圾邮件而言,建模出现sex字眼的概率为theta,则不出现的概率为1-theta,对于数据集D,n个样本中有m个样本有sex,
Likelihood 可以写为theta^m * theta^ (n-m)
取log可以解得theta=m/n

1、通用的解法描述:
a.写出似然函数
b.带入当前样本,求解theta使其值最大

   例如离散型变量X1,X2....Xn,Y,简记为X,Y
则建模:P(X,Y; theta) = p(x,y;theta)
对于m个样本(x1,y1).....(xm,ym)来说,假设这m个样本独立同分布于我们建模的概率P,那么其联合概率分布则为其概率的乘积:p1*p2...*pm
对其取log,Likelihood = Sigma{1,m} (pi)
最大似然概率就是求argmax {theta} Likelihood(theta)
  对于连续型变量,将建模的概率P改为其概率密度函数f(x,y;theta)(PDF)即可
由于概率密度函数在区间的积分的意义才为概率,所以其联合概率密度函数为:
f(x1,y1)dx1 * f(x2,y2)dx2 ....* f(xm,ym)dxm
其物理意义为:当前m个样本落在(x1,y1),..(xm,ym)的邻边(边长为dx1,dx2...dxm的m维立方体)内的概率
但在求其似然函数的时候,则直接将p替换为f即可。但是其物理含义并不像离散变量的似然那么易于理解。[1]

[1]:概率密度函数PDF在某个点x的取值没有实际的物理含义,不像离散的概率质量函数PMF在某点的取值代表其概率。相关概念:measure theroy,Radon-Nikodym derivative,likelihood ratio
https://math.stackexchange.com/questions/1373806/intuition-for-probability-density-function-as-a-radon-nikodym-derivative
更深入需要测度理论以及实分析的学习

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,029评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,238评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,576评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,214评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,324评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,392评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,416评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,196评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,631评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,919评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,090评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,767评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,410评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,090评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,328评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,952评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,979评论 2 351