极大似然估计和EM算法初步

本文来自我的个人博客 https://www.zhangshenghai.com/posts/1422/

极大似然估计是在知道结果的情况下,寻求使该结果出现可能性极大的条件,以此作为估计值。在维基百科中,极大似然估计的定义是这样的:

给定一个概率分布D,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为f_D,以及一个分布参数\theta,我们可以从这个分布中抽出一个具有n个值的采样X_1, X_2, ..., X_n,计算出其似然函数
L(\theta|x_1, ..., x_n) = f_{\theta}(x_1, ..., x_n)
D是离散分布,f_{\theta}即是在参数为\theta时观测到这一采样的概率。若其是连续分布,f_{\theta}则为X_1, X_2, ..., X_n联合分布的概率密度函数在观测值处的取值。一旦我们获得X_1, X_2, ..., X_n,我们就能求得一个关于\theta的估计。最大似然估计会寻找关于\theta的最可能的值。从数学上说,我们可以在\theta的所有可能取值中寻找一个值使得似然函数取到最大值。这个使可能性最大的\hat \theta值即称为\theta的极大似然估计。由定义,极大似然估计是样本的函数。

极大似然估计

问题描述

首先从一个例子入手,假设我们需要调查某个地区的人群身高分布,那么先假设这个地区人群身高服从正态分布N(\mu, \sigma ^2)。注意,极大似然估计的前提是要假设数据总体的分布,不知道数据分布是无法使用极大似然估计的。假设的正态分布的均值和方差未知,这个问题中极大似然估计的目的就是要估计这两个参数。

根据概率统计的思想,可以依据样本估算总体,假设我们随机抽到了1000个人,根据这1000个人的身高来估计均值\mu和方差\sigma^2

将其翻译成数学语言:为了统计该地区的人群身高分布,我们独立地按照概率密度p(x|\theta)抽取了1000个样本组成样本集X = x_1, ..., x_N,我们想通过样本集X来估计总体的未知参数\theta。这里概率密度p(x|\theta)服从高斯分布N(\mu, \sigma ^ 2),其中的未知参数是\theta = [\mu, \sigma]^T

那么怎样估算\theta呢?

估算参数

这里每个样本都是独立地从p(x|\theta)中抽取的,也就是说这1000个人之间是相互独立的。若抽到i的概率是p(x_i|\theta),抽到j的概率是p(x_j|\theta),那么同时抽到它们的概率就是p(x_i|\theta)×p(x_j|\theta)。同理,同时抽到这1000个人的概率就是他们各自概率的乘积,即为他们的联合概率,这个联合概率就等于这个问题的似然函数:
L(\theta) = L(x_1, x_2, ..., x_n;\theta) = \Pi ^n_{i=1} p(x_i|\theta), \quad \theta \in \Theta
对 L 取对数,将其变成连加的,称为对数似然函数,如下式:
H(\theta) = ln L(\theta) = ln \Pi ^n_{i=1} p(x_i|\theta) = \sum^n_{i=1} ln p(x_i|\theta)

为什么要取对数?

  • 取对数之后累积变为累和,求导更加方便
  • 概率累积会出现数值非常小的情况,比如1e-30,由于计算机的精度是有限的,无法识别这一类数据,取对数之后,更易于计算机的识别(1e-30以10为底取对数后便得到-30)。

对似然函数求所有参数的偏导数,然后让这些偏导数为0,假设有n个参数,就可以得到n个方程组成的方程组,方程组的解就是似然函数的极值点了,在似然函数极大的情况下得到的参数值\theta即为我们所求的值:
\hat \theta = argmax \ L(\theta)
极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率极大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。

极大似然估计的步骤

  1. 写出似然函数;
  2. 对似然函数取对数,并整理;
  3. 求导数,令导数为 0,得到似然方程;
  4. 解似然方程,得到的参数。

EM算法初步

和极大似然估计一样,EM算法的前提也是要假设数据总体的分布,不知道数据分布是无法使用EM算法的

概率模型有时既含有观测变量,又含有隐变量。如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法,或贝叶斯估计法估计模型参数。但是,当模型含有隐变量时,就不能简单地使用这些估计方法。EM算法就是含有隐变量的概率模型参数的极大似然估计法,或极大后验概率估计法。

Q函数:完全数据的对数似然函数\log P \left( Y , Z | \theta \right)关于在给定观测数据Y和当前参数\theta_{\left( i \right)}下对未观测数据Z的条件概率分布P \left( Z | Y, \theta_{\left( i \right)} \right)的期望
\begin{align*} & Q \left( \theta, \theta_{\left( i \right)} \right) = E_{Z} \left[ \log P \left( Y, Z | \theta \right) | Y , \theta_{\left( i \right)} \right] \end{align*}
含有隐变量Z的概率模型,目标是极大化观测变量Y关于参数\theta的对数似然函数,即
\begin{align*} & \max L \left( \theta \right) = \log P \left( Y | \theta \right) \\ & = \log \sum_{Z} P \left( Y,Z | \theta \right) \\ & = \log \left( \sum_{Z} P \left( Y|Z,\theta \right) P \left( Z| \theta \right) \right)\end{align*}

EM算法的步骤

输入:观测随机变量数据Y,隐随机变量数据Z,联合分布P\left(Y,Z|\theta\right),条件分布P\left(Y|Z,\theta\right)
输出:模型参数\theta

  1. 初值\theta^{\left(0\right)}

  2. E步:
    \begin{align*} & Q\left(\theta,\theta^\left(i\right)\right)=E_{Z}\left[\log P\left(Y,Z|\theta\right)|Y,\theta^{\left(i\right)}\right] \\ & = \sum_{Z} \log P\left(Y,Z|\theta \right) \cdot P\left(Z|Y, \theta^\left(i\right)\right)\end{align*}

  3. M步:
    \begin{align*} & \theta^{\left( i+1 \right)} = \arg \max Q\left(\theta, \theta^\left( i \right) \right)\end{align*}

  4. 重复2. 3.,直到收敛。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,539评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,594评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,871评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,963评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,984评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,763评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,468评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,850评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,002评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,144评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,823评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,483评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,026评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,150评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,415评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,092评论 2 355

推荐阅读更多精彩内容