前置思考:
LTM(lifelong topic Model)与动态主题模型(Dynamic Topic model,DTM)、演化文本聚类(Evolutionary Document Clustering,EDC)相似,但任务目标不同,研究思路对EDC有借鉴意义。LTM存在语义不对齐的问题,EDC也面临,目前的工作通常加入先验正则来控制语义对齐。非负矩阵因子分解与k-means聚类有类似的优化目标(NTMF,K-means,迁移学习),而本文使用的NMTF的优化目标和深度聚类目标的优化目标应该有联系。
论文的写作手法,实验设置,以及模型设计思路都十分值得学习,值得参考!
主题的对齐是否可以加入例如最大匹配方法来进行约束呢(有权二部图中的最大匹配)最大匹配?
深度学习中有很多语义对齐的方法,例如零样本学习(shot learning(ZSL))中有很多语义对齐的方法,研究纯深度的LTM能也许可以运用到当前深度学习中的技术?
论文阅读
《NMTF-LTM: Towards an Alignment of Semantics for Lifelong Topic Modeling》
摘要导读:LTM通过累积并利用语义知识来对时序文档进行高质量的主题挖掘。具体来说,这种模型可以从每次学习中积累知识,并在处理新的文档或文档集合时应用这些知识,以此来提高主题发现的准确性和效率。该类模型存在的问题:主题的排列可能会随着时间的推移而改变,从而导致流中文档块的主题表示之间的语义不对齐。可以这么理解:如fig.1,主题不对齐是指在不同的时间点运行主题模型时,相似或相同的主题在不同时间可能会被分配到不同的主题标签或编号上,这会使得跟踪同一个主题在时间上的变化变得困难,也影响下游聚类、分类、主题级别的信息检索等任务的效果。文章整合NMTF方法到LTM中用来解决对齐问题。并且设计了并行的PNMTF-LTM算法来使用大规模的文档处理。提出的方法在保证主题质量的同时,可以获得很好的语义对齐,如图fig.9,模型在高性能集群上获得了有效的加速。
LTM介绍:
典型的LTM都会维护一个KB(knowlage base)来实现先验知识的积累和利用。non-negative matrix factorization(NMF)被应用到LTM中,用来将文档特征矩阵分解为文档主题矩阵和主题词矩阵,并通过主题词矩阵更新KB。但NMF-LTM仍然面临语义对齐的问题,导致分类时存在错误分配,导致性能下降fig.1。并且NMF-LTM也面临分布式并行算法设计的困难(还没有看懂)。因此NMTF-LTM引入额外的因子(矩阵),这个因子完成原始主题到对齐主题的映射,图fig.1阐明了主题乱序的现象,论文给出了具体的分析 ,写得泰好辣。对于并行计算的问题,论文给出并行计算的策略(还没有看懂)。
相关工作:1、Lifelong Learning没有考虑语义对齐的问题,可以看作知识遗忘的一个特例。2、语义对齐:在许多领域都存在:域适应、跨模特匹配、时序词嵌入。现有的方法都使用了额外的对齐步骤,并且对齐到原始嵌入空间运用到下游任务时存在困难(还没仔细研究,欢迎私信探讨)。NMTF可以一步到位,三因子使得主题映射更灵活,且利于下游任务。3、大规模数据流处理:基于MPI的NMF方法,对基矩阵进行了增量更新,减少了通信开销和通信步骤数。并行化NMF或NMTF的关键问题在于如何设计一个矩阵划分方案,从而在通信和存储之间实现适当的平衡(还没有看懂)。
NMTF-LTM:
如图2,在t时间片,NMTF-LTM的输入是文档集合,,输出四个矩阵(, , ,,分别为主题-词矩阵,原始主题-对齐主题矩阵,文档-对齐主题矩阵,文档-主题矩阵。下游聚类任务是在文档-对齐主题上进行。
NMF与NMTF的目标函数区别如下,三因子分解很容易看出来:
NMTF-LTM对语义对齐的通过整合( consolidated,不知道翻译对不对,嘿嘿)正则项,来限制主题对齐,正则项如下:
变成了一个桥梁,使得和对齐,且使得对齐主题与先前之间片保存顺序尽量一致。这里的,
而NMTF-LTM对KB的利用,类似于NMF-LTM维持知识库,作为一个图,通过t时刻主题-词矩阵的关系来更新得到。这个知识库将用于构造当前主题-词矩阵的正则项,以此来利用历史知识,正则项如下(该项涉及到的知识不是特别清楚,原始损失不知道是啥样的),该项起到继承主题词矩阵知识的作用:
整个模型的目标函数为以上三项的组合:
模型的优化可以形式化为:
目标函数的优化由乘法更新规则更新(NMF中使用的优化方法),论文中提到的收敛性分析没有看懂,PNMTF-LTM也还没看,以后看了更新。NMTF-LTM算法流程如下,非常清晰:
实验设置:
主题质量:通过主题词中的前20个词进行测量,考虑主题一致性分数,主题唯一性分数以及二者的乘积-主题质量分数
对齐质量:对整个数据集的文档主题矩阵聚类,通过聚类指标NMI,Fβ判断主题对齐质量,结果越好,证明越对齐。
主题级别的动态信息检索:对于此任务,当前块的主题表示(例如,D (t))作为查询集,以分别从前面的块(即,D (1)、D (2)、...,D(t−1))中检索文档。因为要求嵌入空间随着时间的推移保持一致,这个任务也可以反映主题对齐的质量,。
在线文档分类:将文档主题表示矩阵输入用于分类的神经网络(code 里面没找到源码)
该论文实验相当丰富,除了时空复杂度分析以外,论文在上述四个实验上验证了主题质量和对齐质量,还增加了计算性能的分析。另外包括超参数分析,消融实验,定性分析,验证了模型的创新性。
结论:本文主要解决终身主题模型的语义不对齐的问题。提出的NMTF-LTM模型可以得到更好的主题质量,并在下游任务取得更好的性能,证明了模型可以取得更好的语义对齐。为大规模文档流设计的并行算法取得了更好的性能。未来的工作采用稳定性度量主题的数量(这里是指对齐主题的个数吗),使得更好地捕捉主题演化。