混合模型
该模型假设一篇文章是由多个分布所产生的。此处,模型简化为由一个主题分布和一个背景词分布。
接下来需要求出模型的各个分布的参数,课程在这里假设其他参数已知,只有主题分布中的各单词产生概率未知。
主题模型分布参数估计
由于单词产生于某一分布的概率已知,背景词分布已知。为文档产生概率等式增加了约束条件,最终可以使用MLE或MAE求得主题分布参数。
1. 同时使得模型具备如下特征:
- 一个单词在某一分布出现概率较高,在其他分布出现概率则会降低。
- 这样可以让子模型相互抵消,保证每个词在主模型中享有公平的概率
2. 样本数据中单词出现频率越高,最终在所求的子分布中出现概率越高
3. 样本数据中单词出现频率高,也有可能会提高其出现概率高的分布的概率
EM算法
- 存在隐变量是可以使用EM算法的。即存在不知道的随机变量,这随机变量又影响着另外的可观测随机变量。那么我们可以通过统计以观测到的随机变量的分布,推知隐变量。
举个例子,观测到混合模型产生的单词序列,希望得到混合模型子模型的分布。从这里可知存在观测到的变量和隐变量。
随机给主题分布中每个词出现的概率赋值,用以计算另外的条件概率,该词出现的情况下,这个单词产生自主题分布模型的概率。再以此概率反求主题分布中每个词出现的概率。
不停迭代,最终会收敛,概率不再变化。
概率主题模型——topic model
一篇文章包含多个主题,每个主题又包含了多个词,生成模型每声场一个词先是随机选择主题,然后主题分布中有随机选择一个单词。
转化成数学问题就是,需要求出文章-主题概率和主题分布.
-
E-Step
-
M-Step
LDA
image.png
PLSA的缺点
- 不是生成模型
- 太多参数——导致模型复杂:容易过拟合,存在很多局部最大值
LDA:
- 使得PLSA成为生成模型,参数正则化
- 能完成PLSA能完成的任务
与PLSA对比,LDA增加了先验概率。文章所包含主题的比例(模型参数)服从狄利克雷分布。