第三周

混合模型

该模型假设一篇文章是由多个分布所产生的。此处,模型简化为由一个主题分布和一个背景词分布。

接下来需要求出模型的各个分布的参数,课程在这里假设其他参数已知,只有主题分布中的各单词产生概率未知。

主题模型分布参数估计

由于单词产生于某一分布的概率已知,背景词分布已知。为文档产生概率等式增加了约束条件,最终可以使用MLE或MAE求得主题分布参数。

1. 同时使得模型具备如下特征:
  • 一个单词在某一分布出现概率较高,在其他分布出现概率则会降低。
  • 这样可以让子模型相互抵消,保证每个词在主模型中享有公平的概率

2. 样本数据中单词出现频率越高,最终在所求的子分布中出现概率越高

3. 样本数据中单词出现频率高,也有可能会提高其出现概率高的分布的概率

EM算法

  • 存在隐变量是可以使用EM算法的。即存在不知道的随机变量,这随机变量又影响着另外的可观测随机变量。那么我们可以通过统计以观测到的随机变量的分布,推知隐变量。

举个例子,观测到混合模型产生的单词序列,希望得到混合模型子模型的分布。从这里可知存在观测到的变量和隐变量。

随机给主题分布中每个词出现的概率赋值,用以计算另外的条件概率,该词出现的情况下,这个单词产生自主题分布模型的概率。再以此概率反求主题分布中每个词出现的概率。

不停迭代,最终会收敛,概率不再变化。

概率主题模型——topic model

一篇文章包含多个主题,每个主题又包含了多个词,生成模型每声场一个词先是随机选择主题,然后主题分布中有随机选择一个单词。

转化成数学问题就是,需要求出文章-主题概率和主题分布.

  1. E-Step


  2. M-Step


LDA

image.png

PLSA的缺点

  • 不是生成模型
  • 太多参数——导致模型复杂:容易过拟合,存在很多局部最大值

LDA:

  • 使得PLSA成为生成模型,参数正则化
  • 能完成PLSA能完成的任务

与PLSA对比,LDA增加了先验概率。文章所包含主题的比例(模型参数)服从狄利克雷分布。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 一 概率主题模型 1.1 混合语言模型 如何摆脱背景词(数据中频率高)——常见词不应用分布解释 背景主题模型:生成...
    0488a09f74b5阅读 357评论 0 0
  • https://mp.weixin.qq.com/s/BuHiG9FjX-OiSNWx3KquQQ 17.随机梯度...
    _龙雀阅读 3,799评论 0 4
  • LDA的代码实现:http://blog.csdn.net/u010551621/article/details/...
    wlj1107阅读 34,108评论 0 31
  • 目录 目标定位就是人工标注数据,然后让机器学习目标位置框; 特征点检测扩展一下,我不再单一定位框了(也就是一个特征...
    十曰立阅读 1,259评论 0 3
  • 一个人常常想家。想念家里的味道……尤其怀孕那会。一天一个味道。老家的咸菜~老家的炖白菜~老家的煎饼~最近突然发现一...
    沉睡的鱼鱼鱼阅读 245评论 0 0