LDA的java实现

训练

基于gibbs分布的LDA大概训练过程:

推断过程: 主题分布数值的大小与长度无关。

1. 参数解释  返回的是

theta        其中 迭代iterations次后, theta[k] = (nd [k]+ alpha) / (ndsum + K * alpha)

V  : 词典长度            K:topic个数           N:doc中词的个数

nw[V][K] :  doc 的每个词v,被分配到 topic_k 的次数。

nd[K]: doc 中 命中 topic_k 词的个数。  <n ? 

nwsum[K] :   所有词总共被分配给topic_k  的总次数。 每次iteration都累加? 

ndsum: 数值 ,初始为doc中词的个数N。doc中还剩余多少个词。

z[N]:  doc中每个词n对应的topic_id。

1. 初始化 

      随机为 doc的每个词 n 分配主题  , z[N];随之更新 nw、nd、nwsum 

2. 迭代interactions 次,每次从前到后,迭代N个词。

    1)取第n个词的topic,假设将这个词扔掉。因此随之更新 nw,nd,nwsum ;

    2) 重新估计该词的topic。用多项式方法采样多项式分布,得到该词分配给每个topic的概率(次数),P[K] 。累计多项式分布的参数? 遍历P,得到第一个p[k]> 某值(随机值*所有概率的和) 的那个topic。即为新的topic。

   3)随之更新各个参数。

3. 得到theta。

长短文本相似度计算(与短文本长度无关。但是,用topic-word共现次数,而不是用概率,是否相关。对于在语料库中出现比较少的词计算出来的相似度,是否有影响。)


http://blog.csdn.net/pipisorry/article/details/42129099

https://github.com/hankcs/LDA4j.git

http://blog.csdn.net/tanglizhe1105/article/details/50741356

http://nanjunxiao.github.io/2015/08/08/Topic-Model-LDA%E5%AE%9E%E6%88%98%E7%AF%87/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,589评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,615评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,933评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,976评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,999评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,775评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,474评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,359评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,854评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,007评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,146评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,826评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,484评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,029评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,153评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,420评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,107评论 2 356

推荐阅读更多精彩内容

  • 首先通俗的解释下Topic模型LDA:假如我们需要写一篇关于新上市汽车的文章,首先需要确定文章大概的主题,比如要写...
    chaaffff阅读 1,918评论 0 3
  • LDA的代码实现:http://blog.csdn.net/u010551621/article/details/...
    wlj1107阅读 34,064评论 0 31
  • 这个不错分享给大家,从扣上看到的,就转过来了 《电脑专业英语》 file [fail] n. 文件;v. 保存文...
    麦子先生R阅读 6,568评论 5 24
  • 旅行我注重的是过程,并不是看了多少个景点来判断这次旅行的价值,更不是一叠照片的堆砌和满足内心小小的虚荣;而是旅行之...
    小楼秋风阅读 1,068评论 7 8
  • 最真实的我,是跳舞时的我,那个我是融入了最真的情感。 深夜写文的好处是内心的挖掘,不好是有的没的都说,好像一个黑暗...
    16包梦暄阅读 428评论 0 2