1、名词
- 共轭分布:先验分布和后验分布的形式相同
- Dirichlet 分布:二维或者多维的 Beta 分布
2、直观理解
image.png
image.png
3、Gibbs 采样算法求解 LDA
- 首先随机给定每个单词的主题,然后在其他变量固定的情况下,根据转移概率抽样生成每个词的新主题。
- 对于每个词,转移概率可以理解为:给定文章中的所有单词以及除自身以外其他所有单词的主题,在此条件下该单词对应为各个新主题的概率。最后反复迭代,我们可以根据收敛后的采用结果计算主题分布和词分布的期望。
image.png