模型
- 用途:可以用于文本聚类。
- 特点 :是一个生成模型,是概率图模型,属于贝叶斯学派将模型参数看成是一个分布,而不是一固定的值,那么就使用EM算法进行求解,而不是极大似然法。
-
为什么叫狄利克雷:因为从单词表中的抽取单词和从topic表中抽取topic都是一个多项式分布,而狄利克雷分布可以通过指定相应的超参数生成相应的多项式分布,超参数可以是我们的先验知识,所以LDA是属于贝叶斯学派,但是在实际使用的时候为了方便我们并没有加入先验知识,即所有超参数的设置都是一样的,这也是贝叶斯学派被人诟病的原因,命名说是为了加入先验知识,但是实际使用的时候却没有加。
LDA
LDA
求解:
- 优化的目标:就是产生一组参数使得生成出我们观测到数据(一大堆文档)的概率最大,
-
优化算法:EM算法。
image.png
image.png