Topic Modeling for Short Texts with Auxiliary Word Embeddings

利用词嵌入的短文本主题模型(论文阅读笔记)

李晨亮 于2016SIGIR

关键词:

主题模型、 短文本、 词嵌入

目标问题:

利用词嵌入来充实短文本的主题模型是本文的关键。

本文提出了简单、快速和有效的短文本主题模型——GPU-DMM

GPU-DMM基于DMM模型,GPU-DMM模型使用GPU模型通过抽样过程提高在相同主题的语义相关词。

模型(GPU-DMM):

模型图解如下:

GPU-DMM overview.png


GPU-DMM模型扩展了DMM模型,其在主题推断过程中通过GPU模型结合从大语料中训练得到的词向量。

具体来说:

  1. Gibbs Sampling:在对短文本抽取一个主题后,GPU-DMM模型提高同一个主题的语义相关的词。即GPU-DMM模型把语义相关的词连接起来。
  2. Word Filtering:这个模型对语义相关的词进行过滤,只有适当的扩展知识才可以被抽取的主题利用。

模型贡献:

GPU-DMM使用word embeddings作为外部扩展知识,既快速又灵活。在英文搜索引擎的片段和中文问答系统的问题中,GPU-DMM发现更突出的主题,实现了更好的分类准确率。具体贡献如下:

  1. 开发了简单、快速和有效的短文本主题模型GPU-DMM。该模型通过GPU模型直接使用从大文本语料中训练得到的word embeddings。
  2. 通过和其他短文本主题模型对比评价该模型。发现该模型在主题一致性、文本分类准确率和学习速度方面有极大的优越性。
  3. 以经验方法研究两种文档表达推理模型的影响。结果表明,短文档的词分布的和更适合文本分类等任务应用。

模型详解:

对于一个给定的短文本,GPU-DMM模型首先基于条件概率(类似于DMM模型)抽取一个主题。然后选择和这个主题中最相关的词,接着利用GPU模型对这些词的语义相关词进行扩展。


DMM模型——一个生成概率模型

假设:一个文档由单个主题生成。即一个文档中的词由同样的主题分布生成。

D:短文本语料库;V:词汇表大小;K:预训练好的主题。每个d只有一个k。在d中的词N由k的分布生成。

DMM在生成过程中的隐含变量由吉布斯抽样估计。

Auxiliary Word Embedding

利用从大语料学习到的词嵌入能够极大的提高短文本的主题模型。

通过GPU模型利用词嵌入

基于于词共现的主题一致性是主题质量的可靠标准

  • GPU模型:从一个主题中抽取一个词,不仅提高这个词的概率,同时也提高这个词语义相关词的概率。

    本文通过余弦相似度来计算两个词向量之间的相似度。由此可以构建一个相似矩阵,用来保存词之间的相似度。这时使用一个阈值来过滤不是很相关的词对。
  • 词过滤:短文本中的某些词的相关词和这个短文本的主题不符。所以需要强制规定只有这个文档中的强语义相关的词才可以提高它的语义相关词的概率。
  • 模型推理:GPU-DMM和DMM有相同的衍生过程和图解表示,在主题推理过程不同。
  • 模型复杂度:GPU-DMM的时间复杂度为O(KDl+Dlt+KV)。

实验:

利用GPU-DMM模型,在两个不同语言的真实短文本数据集中进行实验,取得了很好的结果。在英文搜索引擎的片段和中文问答系统的数据库就主题连贯性和文本分类进行评测。

数据集

BaiduQA 爬取百度知道的648541条问题,每个问题都被提问者打上了标签。对数据集进行预处理:分词和去除停用词。我们去除了只包含一个词的问题。

Web Snippet 包括12340条网页搜索片段。这些片段总共包含8类。预处理如下:全部转化为小写;去除数字和停用词;去除小于3个词的文本;去除df小于3的词;去除一个文本中的重复的词。

dataset.png

实验步骤

Word Embeddings: 对于Snippet数据集,使用从Google News corpus预训练好的300维词向量;对于BaiduQA数据集,使用爬取的百度百科的700万数据集训练的100维词向量。如果一个词没有词向量,则认为没有词和该词相关。

人工实验决定词向量相似的阈值。最优的阈值依赖于外部语料和训练词向量的算法。

实验忽略相关词大于20的词。

关于词向量的准备和本文所述模型独立,可线下操作。

方法和参数设置:实验将与四个已有的主题模型进行比较,分别有BTM(Biterm Topic Model):直接在短文本中训练;SATM(Self-Aggregation based Topic Model):假设每个短文本从文档集合的长文本中抽取出来;DMM(Dirichlet Multinomial Mixture Model):假设每个文档仅仅有一个主题;LF-DMM(Latent Feature model with DMM):结合DMM和Word Embeddings。

本文就主题一致性和文本分类准确率来评价模型的性能。

主题一致性评价

短文本分类评价

基于主题分布的方法:

效率

Figure2.png
Figure3.png
Table3.jpg
Table4.jpg
Table5.jpg
Figure4.png
Table6.jpg

1.摘要:

很多应用需要短文本的语义理解。传统的主题模型极大的依赖于文档集合中的词共现来生成主题。

但是短文本就词共现来说存在极大的稀疏性。数据稀疏性成为了提高短文本主题模型结果的瓶颈。

然而,人类理解短文本的时候,并不单单基于短文本的内容,还依靠其背景知识(语义相关的词)。而词嵌入很好的做到这一点。

2. 背景介绍

常见的短文本:网页片段、新闻提要、文本广告、tweets、状态更新和问答系统。

常见的用途:用户兴趣分析、话题检测、评论总结、文本特征提取和分类。

传统的主题模型技术:pLSA和LDA。

主题模型:每个文档被表示为一个关于主题的多项分布,每个主题被表示为一个词的多项分布。

统计技术(如吉布斯采样):基于高位词共现模式,应用于识别每个文档隐藏的主题分布,每个主题的词分布。

由于短文本的词共现限制,传统的主题模型技术出现极大的性能退化。(表现如下:数据稀疏阻碍产生有区别的文档主题分布,而且结果缺少语义连贯性)

用来解决短文本数据稀疏问题的策略:

  1. 把短文本集合成为一个伪长文档。缺点是有的文本没有课获得的元数据。
  2. 限制文档主题分布。如一个文档只有一个主题(一元混合模型和Dirichlet多元混合模型)。
  3. 通过利用外部词共现信息,设计一个新的主题模型。(问题:如果两个词有很强的语义相关性但是很少在短文本中共现,这个模型不能完全俘获两个词的语义相关性)

    利用外部词汇知识来指导短文本的主题推断工作:
  4. 依赖外部主题词表
  5. 来源于某个特定领域的文档的词汇知识

3. 相关工作

短文本的主题模型

  1. Phan通过已经从维基百科训练好的隐含主题来推测短文本的主题结构。
  2. Jin使用长文本的语义聚类来推测短文本的隐含主题。
  3. DMM模型的假设:每个文档只有一个隐含主题。Gibbs Sampling算法在DMM中表示在短文本聚类中非常有效。
  4. BTM模型:产生一些共现词而不是单个词。
  5. SATM模型:每个短文本是一个伪长文本的片段,所以共享相同的主题。但是比较耗时。

使用词嵌入的短文本主题模型

  1. LF-DMM:以DMM的二元混合代替多元分布。
  2. GPU-DMM:GPU模型明显减少了计算成本。

——血枫,2016/7/22于枫园一舍。初次发布文章,欢迎各种批评指点。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,490评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,581评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,830评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,957评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,974评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,754评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,464评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,847评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,995评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,137评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,819评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,482评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,023评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,149评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,409评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,086评论 2 355

推荐阅读更多精彩内容