LDA模型分析(二):pLSA建模与求参

pLSA建模与求参

  • pLSA
    LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。尽管基于SVD的LSA取得了一定的成功,但是其缺乏严谨的数理统计基础,而且SVD分解非常耗时。Hofmann在SIGIR'99上提出了基于概率统计的PLSA模型,并且用EM算法学习模型参数。PLSA的概率图模型如下


    image.png

    pLSA是一种词袋方法:


    image.png
  • 几个定义:


    image.png
  • pLSA建模目标:根据文档反推其主题分布


    image.png

    图中被涂色的d、w表示可观测变量,未被涂色的z表示未知的隐变量,N表示一篇文档中总共N个单词,M表示M篇文档。
    已知:


    image.png

    问题:
    image.png
  • pLSA求参数:EM算法
    基本思想是:


    image.png

    image.png

    关键:找到𝐿(𝜃)的一个下界,然后maxmize这个下界,逼近求解的似然函数𝐿(𝜃)。


    image.png
  • pLSA求参数:两未知参数矩阵化


    image.png
  • pLSA求参数:两未知参数


    image.png
  • pLSA求参数:E-step


    image.png

    假定参数已知,计算此时引变量的后验概率。

  • pLSA求参数:M-step


    image.png

    带入隐变量的后验概率,最大化样本分布的对数似然函数,求解相应的参数。

小白学习 无关利益

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 概率论与数理统计 无穷小阶数 无穷小量表述:线性逼近 相当于利用切线和斜率来理解误差和逼近。 泰勒级数:线性逼近 ...
    Babus阅读 823评论 0 1
  • 一、LSA概论 1)LSA的引入 LSA(latent semanticanalysis)潜在语义分析,也被称为L...
    chaaffff阅读 3,610评论 1 8
  • 101.深度学习(CNN RNN Attention)解决大规模文本分类问题。 用深度学习(CNN RNN Att...
    大黄大黄大黄阅读 13,909评论 2 42
  • 朋友圈里看多了鸡汤文,难免会对四平八稳、毫无波澜的现状平淡产生疑问,仿佛一眼就能看到往后十年的生活,实在无趣、乏味...
    碧云霞阅读 309评论 3 3
  • 新的一年开始了,又开始了总结过去展望未来。大多数人又是痛彻心扉的自问为什么过去一年没有好好的学习,时间过的多么多么...
    炖鲶鱼阅读 164评论 0 0