共轭先验、共轭分布——为LDA做准备

概率论中两大学派:

频率学派和贝叶斯学派。先验概率,后验概率,共轭分布和共轭先验是贝叶斯学派中的几个概念。原因是贝叶斯学派认为分布存在先验分布和后验分布的不同,而频率学派则认为一个事件的概率只有一个。

基本概率分布

先验分布(prior probability),后验分布(posterior probability),似然函数(likelyhood function),共轭分布(conjugacy)

共轭分布(conjugacy):后验概率分布函数与先验概率分布函数具有相同形式

那么对于抛硬币这个事件来说,抛出正面硬币的概率就应该是一个概率的概率,也就是说它的结果不是一个单一的值 1/2,而是一个概率分布,可能有很高的概率是1/2,但是也有一定的概率是100%(比如抛100次结果还真都100次都是正面)。那么在这里这个概率的分布用函数来表示就是一个似然函数,所以似然函数也被称为“分布的分布”。用公式来表示就是:后验概率∝ 似然函数*先验概率

采用共轭先验的原因:

可以使得先验分布和后验分布的形式相同,这样一方面合符人的直观(它们应该是相同形式的)另外一方面是可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。

为了使得先验分布和后验分布的形式相同,我们定义:

如果先验分布和似然函数可以使得先验分布和后验分布(posterior distributions)有相同的形式,那么就称先验分布与似然函数是共轭的。所以,共轭是指的先验分布(prior probability distribution)和似然函数(likelihood function)。如果某个随机变量Θ的后验概率 p(θ|x)和气先验概率p(θ)属于同一个分布簇的,那么称p(θ|x)和p(θ)为共轭分布,同时,也称p(θ)为似然函数p(x|θ)的共轭先验。

参数估计:

离散型随机变量分布:二项式分布,多项式分布;

连续型随机变量分布:正态分布。

他们都可以看作是参数分布,因为他们的函数形式都被一小部分的参数控制,比如正态分布的均值和方差,二项式分布事件发生的概率等。因此,给定一堆观测数据集(假定数据满足独立同分布),我们需要有一个解决方案来确定这些参数值的大小,以便能够利用分布模型来做密度估计。这就是参数估计。

从两个学派角度考虑参数估计:

频率学派:通过某些优化准则(比如似然函数)来选择特定参数值;

贝叶斯学派:假定参数服从一个先验分布,通过观测到的数据,使用贝叶斯理论计算对应的后验分布。

先验和后验的选择满足共轭,这些分布都是指数簇分布的例子。




贝叶斯公式
先验分布
似然函数
后验分布

它们之间的关系可以通过贝叶斯公式进行连接: 后验分布 = 似然函数* 先验分布/ P(X)


Gamma函数

gamma函数其实就是阶乘的函数,比如n!=1*2*3*….n,这个阶乘形式可以更一般化,不局限于整数。而更一般的函数形式就是gamma函数:

gamma函数
实例

二项分布与beta分布

二项分布(Binomial distribution)其中p为成功的概率,记作X~B(n,p)

二项分布

beta分布(beta distribution),一组定义在区间(0,1)的连续概率分布,有两个参数α和β,且α,β>0.它是一个作为伯努利分布与二项分布的共轭先验分布的密度函数。Beta分布的概率密度函数:

beta分布的概率密度函数

记作X~ Beta(α,β),其中分母函数为B函数,B函数是一个标准化函数,它只是为了使得这个分布的概率密度积分等于1。

B函数与Gamma函数的关系:

B函数与Gamma函数的关系

Beta分布的期望可以用公式来估计:

Beta分布的期望可以用公式来估计

二项分布代入似然函数:


二项分布代入似然函数

beta分布代入先验分布:

beta分布代入先验分布
共轭先验

最后我们发现这个贝叶斯估计服从Beta(a’,b’)分布的,我们只要用B函数将它标准化就得到我们的后验概率:


多项式分布与Dirichlet 分布

狄利克雷分布(Dirichlet distribution)是多项分布的共轭分布,也就是它与多项分布具有相同形式的分布函数。

多项分布是二项分布的推广,在n次独立试验中每次只输出k种结果中的一个,且每种结果都有一个确定的概率p。

三项多项式表达:

三项式分布

三维Dirichlet分布:

三维的Dirichlet分布

多项式表达式:

多项式分布

多维的Dirichlet分布:

多维的Dirichlet分布

多项式分布代入似然函数

Dirichlet分布代入先验分布

后验概率:



LDA

主题模型的概率表示:

主题分布

p(词语|文档)可通过观察数据集求得。那么右边的两个概率分布如何求得的?将这两个分布看着是上帝的游戏:上帝为了创造一篇文档,先用一个有M个面的骰子做实验,M个面代表M个主题,每做一次投骰子实验,就可以得到M个主题中的一个,进行多次投掷,就可以得到一篇文档的多个主题,可以看到这个实验描述的分布就是多项式分布。同样的某个主题下有多个词语,某个主题骰子有N个面,每个面表示一个词语(即词袋),每做一次投骰子实验,就可得到N个词中的一个,进行多次投掷,就可以得到一个主题下多个词语,同样可以看出这个实验也服从多项式分布。我们可以将他们的先验都取Dirichlet分布。






http://wulc.me/2017/01/08/%E5%85%88%E9%AA%8C%E6%A6%82%E7%8E%87%EF%BC%8C%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87%EF%BC%8C%E5%85%B1%E8%BD%AD%E5%88%86%E5%B8%83%E4%B8%8E%E5%85%B1%E8%BD%AD%E5%85%88%E9%AA%8C/

http://blog.csdn.net/claire7/article/details/46780849

http://blog.csdn.net/michael_r_chang/article/details/39188321

http://www.cnblogs.com/yutingliuyl/p/7064997.html

http://blog.csdn.net/omade/article/details/17023091

http://blog.csdn.net/a358463121/article/details/52562940

http://blog.csdn.net/a101070096/article/details/50459137

http://blog.csdn.net/xianlingmao/article/details/7340099

http://blog.csdn.net/u010945683/article/details/49149815

http://blog.csdn.net/michael_r_chang/article/details/39188321

http://blog.csdn.net/acdreamers/article/details/45026459

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容