LDA主题模型

待整理

假设文档是由n个词组成的,且不考虑词之间的关系,假设我们的词典有V个词语,v1,v2,...vv,那么最简单的文本生成方法是:

图片.png

每次从词典库中随机挑出一个词语,直到n个词挑完。

这里假设文档的生成服从多项式分布

图片.png
图片.png
图片.png

比较

PLSA与基于kl散度的NMF是等价的,同时也是一种特殊的LDA模型。也有论文讨论了LDA模型与PLSA的近似关系。

[3]. On the equivalence between Non-negative Matrix Factorization and
Probabilistic Latent Semantic Indexing

[4]. The Relationships Among Various Nonnegative Matrix Factorization ethods for Clustering

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容