07 主题模型 - 知识补充 - 概率知识、二项\多项\Beta\Dirichlet分布

06 主题模型 - pLSA又称pLSI - 基于概率的潜在语义分析模型

为了讲后续的LDA算法,需要补充一点数学知识。大纲如下:

概率知识
二项分布
多项分布
Beta分布
Beta分布和二项分布
Dirichlet分布


一、概率知识

先验概率: 在事情尚未发生前,对该事件发生概率的估计。利用过去历史资料计算出来得到的先验概率叫做客观先验概率;凭主观经验来判断而得到的先验概率叫做主观先验概率。

后验概率: 通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正后,而得到的概率。

似然函数: 给定模型参数θ的条件下,样本数据服从这一概率模型的相似程度。

先验分布:反映在进行统计试验之前根据其他有关参数知识得到的分布;也就是说在观测获取样本之前,人们对θ已经有一些知识,此时这个θ的分布函数为H(θ),θ的密度函数为h(θ),分别称为先验分布函数和先验密度函数,统称先验分布。

后验分布:根据样本X的分布以及θ的先验分布π(θ),使用概率论中求解条件概率的方式可以计算出来已知X的条件下,θ的条件分布π(θ|x)。因为该分布是在获取样本x之后计算出来的,所以称为后验分布。
后验分布 = 历史数据(先验概率) + 样本(似然函数)

共轭分布:如果先验分布和后验分布具有相同的形式,那么先验分布和似然函数被称为共轭分布。
如:先验分布是一个正太分布,加上似然函数后形成的后验分布也是一个正太分布,那么先验分布似然函数称为共轭分布

分析: 也许读者会困惑先验分布后验分布到底是个什么意思?这里我举个栗子。
假如现在有一个硬币,我刚拿到硬币的时候心里有个数:抛硬币正面反面的概率都是50%,这是我根据以往经验得到的一个先验分布
现在我开始抛硬币,我抛硬币的过程就是在获取样本X的过程,X= {正面,反面,反面,反面,正面....} ; 如果我扔了10次硬币,正面7次反面3次。这是似然函数得到的结果。
现在预测是正面的概率:先验分布=0.5,似然函数预测的概率=0.7。
两个分布相加后的结果:12/20 就是后验分布预测下次是正面的概率。


二、二项分布

二项分布是从伯努利分布推导过来的。伯努利分布,又称两点分布或0-1分布,是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负{+,-}。

而二项分布即重复n次的伯努利试验,记为 X ~ b(n,p);

简言之,只做一次实验,是伯努利分布,重复做了n次,是二项分布。

期望E(x) = np 方差 D(x) = np(1-p)

拿抛硬币举例子,正面概率p,反面概率1-0。我抛了n次。
pk(1-p)n-k 表示其中p的概率取到了k次,1-p的概率取到了n-k次。即意味着k次正面,n-k次反面。

下面的公式即Cnk,比如一共抽了10次,其中k次出现正面的情况。


例子: 做了若干次的抛100回硬币的实验,若正的情况记为1,负的情况记为0,结果如图所示,发现正面的概率是0.9。
其中12%的实验结果证明抛100次后是正面的次数正好是90。而在坐标轴的左右两侧,有趋向于0的概率发现抛100次硬币是正面的结果分别为75和100%。

如果抛无数轮,每轮抛100次硬币,最后是正面朝上的均值是多少呢?
np = 100×0.9 = 90;
图中最高的那个点对应的是众数,众数对应的横坐标就是我们的期望,可以看到期望几乎就等于90。


三、多项分布

多项分布(Multinomial Distribution)是二项分布的推广。

多项分布是指单次试验中的随机变量的取值不再是0/1的,而是有多种离散值可能(1,2,3...,k)。比如投掷6个面的骰子实验,N次实验结果服从K=6的多项分布。其中K个离散值的概率为:


四、Beta分布

Beta分布是二项分布的共轭分布,是指一组定义在(0,1)区间的连续概率分布,具有两个参数:α,β>0;

\color{red}{PS:下面比较绕,好好理解。}
共轭分布: 如果先验分布和后验分布具有相同的形式,那么先验分布和似然函数被称为共轭分布。
这里我们认为当Beta分布作为先验分布二项分布作为条件分布(似然函数),最终得到的后验分布的分布和Beta分布的分布形式相同。
\color{red}{即,Beta分布作为其后验分布的分布形式。}

Beta分布

Beta分布是指一组定义在(0,1)区间的连续概率分布,什么意思?
当你不知道一件事情发生的具体概率是多少时,Beta分布可以给出所有概率出现的可能性大小。


举例:
姚明罚球,投篮命中率高。
体育老师,投篮命中率中。
柔弱女生,投篮命中率低。
那么让柔弱女生去投篮,她投不进的概率会更高。

Beta分布描述的是投篮命中率的分布情况。
Beta分布中存在α,β,我们认为α是正例发生的频数,β是负例发生的频数。
让任何一个人投篮这件事情发生之前,有一个他们是否会投进的先验概率,即我们人为的经验。

回到刚才举的例子,现在姚明开始投篮了,他投进了5次,1次没有投进。
我们人为姚明命中率为80%的概率非常高。

姚明投篮 - 蓝线

柔弱女生开始投篮了,她投进了1次,3次没进。
我们人为女生投篮命中率打到70%的可能性非常低。

女生投篮 - 绿线

Beta分布计算的是什么?
是我们投篮命中率为0%~100%区间内,各个情况(..1%,2%...,99%...)分别发生的概率。是关于连续概率的概率。

\color{red}{Beta分布,决定了我们LDA模型建立时需要考虑的因素。}


五、Beta分布和二项分布

除去系数不看,Beta分布二项分布具有相同的形式。将Beta分布当做先验分布,将二项分布当做似然函数。


六、Dirichlet分布

Dirichlet分布是由Beta分布推广而来的,是多项式分布的共轭分布。

08 主题模型 - LDA

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342