06 主题模型 - pLSA又称pLSI - 基于概率的潜在语义分析模型
为了讲后续的LDA算法,需要补充一点数学知识。大纲如下:
概率知识
二项分布
多项分布
Beta分布
Beta分布和二项分布
Dirichlet分布
一、概率知识
先验概率: 在事情尚未发生前,对该事件发生概率的估计。利用过去历史资料计算出来得到的先验概率叫做客观先验概率;凭主观经验来判断而得到的先验概率叫做主观先验概率。
后验概率: 通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正后,而得到的概率。
似然函数: 给定模型参数θ的条件下,样本数据服从这一概率模型的相似程度。
先验分布:反映在进行统计试验之前根据其他有关参数知识得到的分布;也就是说在观测获取样本之前,人们对θ已经有一些知识,此时这个θ的分布函数为H(θ),θ的密度函数为h(θ),分别称为先验分布函数和先验密度函数,统称先验分布。
后验分布:根据样本X的分布以及θ的先验分布π(θ),使用概率论中求解条件概率的方式可以计算出来已知X的条件下,θ的条件分布π(θ|x)。因为该分布是在获取样本x之后计算出来的,所以称为后验分布。
后验分布 = 历史数据(先验概率) + 样本(似然函数)
共轭分布:如果先验分布和后验分布具有相同的形式,那么先验分布和似然函数被称为共轭分布。
如:先验分布是一个正太分布,加上似然函数后形成的后验分布也是一个正太分布,那么先验分布和似然函数称为共轭分布。
分析: 也许读者会困惑先验分布和后验分布到底是个什么意思?这里我举个栗子。
假如现在有一个硬币,我刚拿到硬币的时候心里有个数:抛硬币正面反面的概率都是50%,这是我根据以往经验得到的一个先验分布。
现在我开始抛硬币,我抛硬币的过程就是在获取样本X的过程,X= {正面,反面,反面,反面,正面....} ; 如果我扔了10次硬币,正面7次反面3次。这是似然函数得到的结果。
现在预测是正面的概率:先验分布=0.5,似然函数预测的概率=0.7。
两个分布相加后的结果:12/20 就是后验分布预测下次是正面的概率。
二、二项分布
二项分布是从伯努利分布推导过来的。伯努利分布,又称两点分布或0-1分布,是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负{+,-}。
而二项分布即重复n次的伯努利试验,记为 X ~ b(n,p);
简言之,只做一次实验,是伯努利分布,重复做了n次,是二项分布。
拿抛硬币举例子,正面概率p,反面概率1-0。我抛了n次。
pk(1-p)n-k 表示其中p的概率取到了k次,1-p的概率取到了n-k次。即意味着k次正面,n-k次反面。
下面的公式即Cnk,比如一共抽了10次,其中k次出现正面的情况。
例子: 做了若干次的抛100回硬币的实验,若正的情况记为1,负的情况记为0,结果如图所示,发现正面的概率是0.9。
其中12%的实验结果证明抛100次后是正面的次数正好是90。而在坐标轴的左右两侧,有趋向于0的概率发现抛100次硬币是正面的结果分别为75和100%。
如果抛无数轮,每轮抛100次硬币,最后是正面朝上的均值是多少呢?
np = 100×0.9 = 90;
图中最高的那个点对应的是众数,众数对应的横坐标就是我们的期望,可以看到期望几乎就等于90。
三、多项分布
多项分布(Multinomial Distribution)是二项分布的推广。
多项分布是指单次试验中的随机变量的取值不再是0/1的,而是有多种离散值可能(1,2,3...,k)。比如投掷6个面的骰子实验,N次实验结果服从K=6的多项分布。其中K个离散值的概率为:
四、Beta分布
Beta分布是二项分布的共轭分布,是指一组定义在(0,1)区间的连续概率分布,具有两个参数:α,β>0;
共轭分布: 如果先验分布和后验分布具有相同的形式,那么先验分布和似然函数被称为共轭分布。
这里我们认为当Beta分布作为先验分布,二项分布作为条件分布(似然函数),最终得到的后验分布的分布和Beta分布的分布形式相同。
Beta分布是指一组定义在(0,1)区间的连续概率分布,什么意思?
当你不知道一件事情发生的具体概率是多少时,Beta分布可以给出所有概率出现的可能性大小。
举例:
姚明罚球,投篮命中率高。
体育老师,投篮命中率中。
柔弱女生,投篮命中率低。
那么让柔弱女生去投篮,她投不进的概率会更高。
Beta分布描述的是投篮命中率的分布情况。
Beta分布中存在α,β,我们认为α是正例发生的频数,β是负例发生的频数。
让任何一个人投篮这件事情发生之前,有一个他们是否会投进的先验概率,即我们人为的经验。
回到刚才举的例子,现在姚明开始投篮了,他投进了5次,1次没有投进。
我们人为姚明命中率为80%的概率非常高。
柔弱女生开始投篮了,她投进了1次,3次没进。
我们人为女生投篮命中率打到70%的可能性非常低。
Beta分布计算的是什么?
是我们投篮命中率为0%~100%区间内,各个情况(..1%,2%...,99%...)分别发生的概率。是关于连续概率的概率。
五、Beta分布和二项分布
除去系数不看,Beta分布和二项分布具有相同的形式。将Beta分布当做先验分布,将二项分布当做似然函数。
六、Dirichlet分布
Dirichlet分布是由Beta分布推广而来的,是多项式分布的共轭分布。