《NMTF-LTM: Towards an Alignment of Semantics for Lifelong Topic Modeling》


前置思考:

LTM(lifelong topic Model)与动态主题模型(Dynamic Topic model,DTM)、演化文本聚类(Evolutionary Document Clustering,EDC)相似,但任务目标不同,研究思路对EDC有借鉴意义。LTM存在语义不对齐的问题,EDC也面临,目前的工作通常加入先验正则来控制语义对齐。非负矩阵因子分解与k-means聚类有类似的优化目标(NTMF,K-means,迁移学习),而本文使用的NMTF的优化目标和深度聚类目标的优化目标应该有联系。

论文的写作手法,实验设置,以及模型设计思路都十分值得学习,值得参考!

主题的对齐是否可以加入例如最大匹配方法来进行约束呢(有权二部图中的最大匹配)最大匹配

深度学习中有很多语义对齐的方法,例如零样本学习(shot learning(ZSL))中有很多语义对齐的方法,研究纯深度的LTM能也许可以运用到当前深度学习中的技术?


论文阅读

《NMTF-LTM: Towards an Alignment of Semantics for Lifelong Topic Modeling》

摘要导读:LTM通过累积并利用语义知识来对时序文档进行高质量的主题挖掘。具体来说,这种模型可以从每次学习中积累知识,并在处理新的文档或文档集合时应用这些知识,以此来提高主题发现的准确性和效率。该类模型存在的问题:主题的排列可能会随着时间的推移而改变,从而导致流中文档块的主题表示之间的语义不对齐。可以这么理解:如fig.1,主题不对齐是指在不同的时间点运行主题模型时,相似或相同的主题在不同时间可能会被分配到不同的主题标签或编号上,这会使得跟踪同一个主题在时间上的变化变得困难,也影响下游聚类、分类、主题级别的信息检索等任务的效果。文章整合NMTF方法到LTM中用来解决对齐问题。并且设计了并行的PNMTF-LTM算法来使用大规模的文档处理。提出的方法在保证主题质量的同时,可以获得很好的语义对齐,如图fig.9,模型在高性能集群上获得了有效的加速。

语义不对齐导致分类结果下降的例子
语义对齐的例子

LTM介绍:

典型的LTM都会维护一个KB(knowlage base)来实现先验知识的积累和利用。non-negative matrix factorization(NMF)被应用到LTM中,用来将文档特征矩阵分解为文档主题矩阵和主题词矩阵,并通过主题词矩阵更新KB。但NMF-LTM仍然面临语义对齐的问题,导致分类时存在错误分配,导致性能下降fig.1。并且NMF-LTM也面临分布式并行算法设计的困难(还没有看懂)。因此NMTF-LTM引入额外的因子(矩阵),这个因子完成原始主题到对齐主题的映射,图fig.1阐明了主题乱序的现象,论文给出了具体的分析 ,写得泰好辣。对于并行计算的问题,论文给出并行计算的策略(还没有看懂)。

相关工作:1、Lifelong Learning没有考虑语义对齐的问题,可以看作知识遗忘的一个特例。2、语义对齐:在许多领域都存在:域适应、跨模特匹配、时序词嵌入。现有的方法都使用了额外的对齐步骤,并且对齐到原始嵌入空间运用到下游任务时存在困难(还没仔细研究,欢迎私信探讨)。NMTF可以一步到位,三因子使得主题映射更灵活,且利于下游任务。3、大规模数据流处理:基于MPI的NMF方法,对基矩阵进行了增量更新,减少了通信开销和通信步骤数。并行化NMF或NMTF的关键问题在于如何设计一个矩阵划分方案,从而在通信和存储之间实现适当的平衡(还没有看懂)。

NMTF-LTM:

NMTF-LTM

如图2,在t时间片,NMTF-LTM的输入是文档集合D^{(t)} Kg^{(t-1)} ,输出四个矩阵(W^{(t)} S^{(t)}  ,V^{(t)}  ,H^{(t)} ,分别为主题-词矩阵,原始主题-对齐主题矩阵,文档-对齐主题矩阵,文档-主题矩阵。下游聚类任务是在文档-对齐主题上进行。

NMF与NMTF的目标函数区别如下,三因子分解很容易看出来:

NMF
NMTF

NMTF-LTM对语义对齐的通过整合( consolidated,不知道翻译对不对,嘿嘿)正则项,来限制主题对齐,正则项如下:

consolidated regularization

V^{(t)}变成了一个桥梁,使得\tilde{W}^{(t-1)}\tilde{W}^{(t)}对齐,且使得对齐主题与先前之间片保存顺序尽量一致。这里的\tilde{W}^{(t)}={W}^{(t)}{S}^{(t)}

而NMTF-LTM对KB的利用,类似于NMF-LTM维持知识库Kg^{(t-1)} Kg^{(t-1)} 作为一个图,通过t时刻主题-词矩阵的关系来更新得到Kg^{(t)} 。这个知识库将用于构造当前主题-词矩阵的正则项,以此来利用历史知识,正则项如下(该项涉及到的知识不是特别清楚,原始损失不知道是啥样的),该项起到继承主题词矩阵知识的作用:

图正则化项

整个模型的目标函数为以上三项的组合:

NMTF-LTM目标函数

模型的优化可以形式化为:

NMTF-LTM优化目标

目标函数的优化由乘法更新规则更新(NMF中使用的优化方法),论文中提到的收敛性分析没有看懂,PNMTF-LTM也还没看,以后看了更新。NMTF-LTM算法流程如下,非常清晰:

NMTF-LTM算法流程

实验设置:

主题质量:通过主题词中的前20个词进行测量,考虑主题一致性分数,主题唯一性分数以及二者的乘积-主题质量分数

对齐质量:对整个数据集的文档主题矩阵聚类,通过聚类指标NMI,Fβ判断主题对齐质量,结果越好,证明越对齐。

主题级别的动态信息检索:对于此任务,当前块的主题表示(例如,D (t))作为查询集,以分别从前面的块(即,D (1)、D (2)、...,D(t−1))中检索文档。因为要求嵌入空间随着时间的推移保持一致,这个任务也可以反映主题对齐的质量,。

在线文档分类:将文档主题表示矩阵输入用于分类的神经网络(code 里面没找到源码)

该论文实验相当丰富,除了时空复杂度分析以外,论文在上述四个实验上验证了主题质量和对齐质量,还增加了计算性能的分析。另外包括超参数分析,消融实验,定性分析,验证了模型的创新性。


结论:本文主要解决终身主题模型的语义不对齐的问题。提出的NMTF-LTM模型可以得到更好的主题质量,并在下游任务取得更好的性能,证明了模型可以取得更好的语义对齐。为大规模文档流设计的并行算法取得了更好的性能。未来的工作采用稳定性度量主题的数量(这里是指对齐主题的个数吗),使得更好地捕捉主题演化。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容