EM最大期望算法(Expectation Maximization)

译者按:本文来自于吴恩达的斯坦福经典课程CS229 的课程笔记,也是国内大部分EM算法文章的参考源,本文详细介绍了EM的推导过程,要深入了解EM算法不可不读。期望最大化(Expectation Maximization) 算法被称为机器学习十大算法之一,最初是由Ceppellini等人1950 年在讨论基因频率的估计的时候提出的。后来又被Hartley 和Baum 等人发展的更加广泛。目前引用的较多的是1977 年Dempster等人的工作。它主要用于从不完整的数据中计算最大似然估计。 这个算法是目前隐马尔科夫(HMM)、聚类方面的基础,广泛应用于自然语言处理等方面。

EM算法

在前面的一组笔记中,我们讨论了适用的EM算法混合着高斯分布。 在这套笔记中,我们给出了更广泛的观点的EM算法,并展示它如何应用于一个大的估计潜在变量的问题系列。 我们从一个称为Jensen不等式的非常有用的结果开始讨论。

1、Jensen不等式

设f是一个函数,其域是实数集合。 回想一下,f是一个凸函数,如果f ''(x)>= 0(x ∈ R)。 在f服用的情况下

矢量值输入,这被推广到它的黑森州H的条件是半正定的(H≥0)。 如果所有x的f ‘’(x)> 0,那么我们说f是严格凸(在向量值情况下,相应的语句是H必须是严格半正定的,写成H> 0)。Jensen不等式可以说明如下:

定理:  令f是一个凸函数,并且令X是一个随机变量。


而且,如果f是严格凸的,那么如果和,E [f(X)] = f(EX)成立  仅当X = E [X]具有概率1时(即,如果X是常数)。回想一下在编写期望时偶尔放弃括号的惯例,所以在上面的定理中,f(EX)= f(E [X])。有关该定理的解释,请考虑下图。


这里,f是实线所示的凸函数。 另外,X是一个随机数变量,有0.5的机会取值a和0.5的机会取值b(在x轴上指示)。

 因此,X的期望值由a和b之间的中点给出。

我们还可以看到在y轴上显示的值f(a),f(b)和f(E [X])。此外,值E [f(X)]现在是f(a)之间的y轴上的中点,

和f(b)。 从我们的例子中,我们看到,因为f是凸的,所以它必须是E [f(X)]  >=  F(EX)。

顺便提一句,很多人都无法记住哪种方式不等式就会发生,记住这样的一张图片是一个迅速找出答案的好方法

备注。 回想一下,当且仅当f 严格凸(即,f''(x)≥0或H≥0)。 詹森的不平等也适用于凹函数f,但所有不等式的

方向相反(E [f(X)]≤ f(EX)等)。


2 The EM 算法

假设我们有一个估计问题,我们有一个训练集 {X(1).....x(m)} 由m个独立的例子组成。 我们希望这个

数据模型p(x; z)的参数,其中的可能性是由


但是,明确地确定参数的最大似然估计值θ可能很难。 这里,z(i)是潜在的随机变量; 而且经常这样:

如果z(i)被观察到,那么最大似然估计会很容易。

在这样的设置中,EM算法给出了一个有效的方法,最小似然估计。 明确地最大化  ι(θ)可能会很困难,

而我们的策略将是反复地在ι上建立一个下界(E-步骤),然后优化该下限(M步骤)。

对于每个i,让Qi在z上有一些分布(Pz Qi(z)= 1,Qi(z)≥0)。 考虑以下几点:


这个推导的最后一步使用了Jensen的不等式。 具体而言,f(x)=log x是一个凹函数,因为其域x ∈ R +上的f''(x)=􀀀1= x2 <0。另外,这个词

(x(i); z(i);?)= Qi(z(i))?????????? 关于z(i)根据Qi给出的分布绘制。 通过Jensen的不等式,我们有


\ z(i)? 上面的“齐”下标表示期望值关于z(i)取自齐。 这使我们可以从方程(2)到公式(3)。现在,对于任何一组分布Qi,公式(3)给出了一个下界在'(?)上。 齐的有许多可能的选择。 我们应该怎样选择? 那么,如果我们有一些目前的猜测? 的参数,试图在低于这个价值的情况下使下限紧张是很自然的。 即,我们会的使以上的不平等符合我们特定的价值。(我们稍后会看到这是如何使我们证明 ι(θ)单调增加的与EM的成功迭代。)

为了使边界对于某个特定的值更紧密,我们需要这个步骤涉及Jensen的不平等在我们上面的推导中要保持平等。

为了实现这一点,我们知道期望值是足够的在一个\常数“ - 值得随机变量上,即我们需要这个


对于一些不依赖于z(i)的常数c。 这很容易完成通过选择

实际上,因为我们知道Pz Qi(z(i))= 1(因为它是一个分布),所以进一步告诉我们


因此,我们简单地将Qi设置为z(i)的后验分布给定x(i)和参数?的设置。现在,对于Qi的这个选择,方程(3)给出了一个下界我们试图最大化的对数似然性。 这是E步骤。 在里面算法的M步,然后我们最大化公式(3)中的公式尊重参数以获得?的新设置。 反复执行这两个步骤给了我们EM算法,如下所示:


我们如何知道这个算法是否会收敛? 那么,假设?(t)和Δ(t + 1)是来自EM的两次连续迭代的参数。 我们会

现在证明`(?(t))? `(?(t + 1)),它表示EM总是单调的提高了对数似然。 展示这一结果的关键在于我们的选择

齐的。 具体而言,在参数所具有的EM的迭代中开始为?(t),我们将选择Q(t)i(z(i)):= p(z(i)jx(i);?(t))。 我们之前看到,这种选择确保了Jensen的不平等,就像应用于获得等式(3)持有平等,因此


这第一个不平等来自于这个事实

适用于任何Qi和?的值,特别适用于Qi = Q(t)一世 ,? =?(t + 1)。 为了得到方程(5),我们使用了选择?(t + 1)的事实明确地是之前看到,这种选择确保了Jensen的不平等 

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,335评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,895评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,766评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,918评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,042评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,169评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,219评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,976评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,393评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,711评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,876评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,562评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,193评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,903评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,699评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,764评论 2 351

推荐阅读更多精彩内容

  • 转载 http://blog.csdn.net/zouxy09 EM算法是一种迭代算法,用于含有隐含变量的概率模型...
    Jlan阅读 2,152评论 1 13
  • 本节讲的主要是EM算法的推导,对于算法的应用解释的不多,所以这里不多赘述,只讲讲推理的主要思想。 E步就是想根据上...
    小碧小琳阅读 448评论 0 1
  • EM算法的大概流程主要三部分:需要的预备知识、EM算法详解和对EM算法的改进。 一、EM算法的预备知识 1、极大似...
    尼小摩阅读 751评论 0 1
  • 1. 有人说过,人的一生要死去三次。第一次,当你的心跳停止,呼吸消逝,你在生物学上被宣告了死亡;第二次,当你下葬,...
    木卯丁阅读 227评论 1 1
  • 继续我时断时续的日记吧! 有时候每天都写日记我不行了,只能是想起来了就写写吧! 不知道为什么?这个月我没有买饭票,...
    玛丽苏日记阅读 164评论 0 0