
文本挖掘与分析概述图

文本数据与非文本数据结合

主题模型两大任务
- 发现K个主题
- 计算每个文档包含哪些主题

常规形式化定义主题模型

概率主题模型
此处引入了单词集,用来计算各主题的词分布。

主题分布例子

文本挖掘的生成模型
通过调整模型的参数,使得生成数据的条件概率最大。

可以用最大似然法或贝叶斯估计找到最优值。

参数估计办法
- MLE最大似然估计--缺点:数据太小的时候容易对模型参数估计有偏差
- MAE贝叶斯推断--缺点:需要知道先验分布

贝叶斯推断示例
此处引入了单词集,用来计算各主题的词分布。
通过调整模型的参数,使得生成数据的条件概率最大。
可以用最大似然法或贝叶斯估计找到最优值。