主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。例子:
数学基础
(1)一个函数:
(2)四个分布:二项分布,多项分布,Beta分布,Dirichel分布
(3)一个概念和一个理念:共轭先验和贝叶斯框架
(4)两个模型:pLSA,LDA
(5)一个采样:Gibbs采样
1、函数:
2、四个分布:
2.1 二项分布:是从伯努利分布推进的。伯努利分布(两点分布或0-1分布)----是一个离散型的随机分布,其中的随机变量只有0,1两个取值。而二项分布即重复n次的伯努利试验。只做一次实验,是伯努利分布,重复做了n次,是二项分布。
2.2 多项分布是二项分布推广到多维的情况
是指单次试验中随机变量的取值不再是0、1,而是有多种离散值可能(1,2,3,…k),例如投掷6个面的骰子实验。
多项分布的概率密度函数为:
2.3 Beta分布是一组定义在(0,1)区间的连续概率分布,有两个参数α,β>0
概率密度为:
Beta分布的期望是:
2.4 Dirichlet分布是一组连续多变量概率分布,常做为贝叶斯统计的先验概率。
概率密度为:
当狄利克雷分布维度趋向于无限时,便成了狄利克雷过程------主题模型
3、一概念,一理念
3.1共轭先验和贝叶斯框架
(1)在贝叶斯理论中,如果后验概率和先验概率满足同样的分布率,则称先验分布和后验分布为共轭分布。先验概率通常是主观的猜测,为了使计算后验概率方便,有时候会选择共轭先验。如果后验概率和先验概率是同一族的,则认为它们是共轭分布,这个先验概率就是对应于似然函数的共轭先验。
(2)贝叶斯派思考问题的方式是:先验分布+样本信息--->后验分布
3.2 Beta分布是二项式分布的共轭先验概率分布
3.3 狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分�
主题模型pLSA和LDA
LDA是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。优点:对于每一个主题均可找出一些词语来描述它。