From Word Embedding To Document Distances

1.摘要

论文作者首先提出了WMD(word mover's distance)这个概念,即:单词移动距离。一个新颖的,描述两篇文章的距离函数。 这个方法是建立在已经尽可能学习到语义距离的词嵌入模型基础上来实现的。WMD通过量化最小词嵌入向量空间的距离测度了两篇文档的相异性,并证明了该方法是EMD距离(搬土距离,基于运输问题的效率 提出的一种直方图相似度量。 它是归一化的从一个分布变为另一个分布的最小代价, 可以用来测量两个分布(multi-dimensional distributions)之间的距离)的一个实例。且此距离方法没有任何超参数,是一个简单而直接的算法实现,并且在该论文中以八个真实文档为例子证明了该方法相较于k近邻拥有更低分类错误率(classification error rates)

2. 介绍

由于时间紧迫,不细描述,只做重要细节摘要

    1. 两种最常见represent文档的方法:BOW(bag of bow)以及 tf-idf(term frequency and inverse document frequency)。由于高频或0频次的单词(frequent near-orthogonality)并不能正确表示文档的真实语义距离,这两种方法通常不适用于文档距离的度量。

    2. 所以本论文作者提出了一种全新的矩阵方法来表示两篇文章的编辑距离。并指出,针对该方法WMD实现的优化问题实际是EMD距离的一种具体实例化体现。且,WMD 是个无超参, 高可解释性的距离计算方法

    3. 词嵌入模型Word2Vec :13年提出,可以通过skip-gram 模型的方式来训练,具体公式为,懒得手打了。。


其中T为文档中所有单词的集合(数), nb(t) 为单词t的邻居单词,即所谓的上下文表示

或者所谓的语义窗口(因为word2vec的假设是 语义相近的单词,在出现位置上也是相近的)

值得注意的是:logp(wj|wt)做了一层层次化的softmax

该论文也指出,word2vec提出的比较早,存在一定的语义理解不到位的问题,建议大家可以试试别的词嵌入模型(elmo啊等等)。但是对于当前论文,word2vec来做基础数据,这已经够用了(因为训练得够快哈哈哈哈)

    4. WMD:

            首先提出nbow(normalized bag-of-words)的表示:简单来说,即统计单词i,  分别在文档d中的词频概率。生成一个向量空间d, 由于很多词都不会出现在其他文档里,所以d应该是一个非常稀疏的矩阵。nbow简单给出了一个词频在文档中的分布,他完全表示不了单词和单词间的语义关系。两篇语义距离很近的文章,会被nbow错误得计算。

           单词距离:论文作者提出了一个目标,想将纳入了语义距离词嵌入模型中的单词对来放入文档距离矩阵中。自然而然的,欧式距离被引进来去做单词对之间的cost计算

           文档距离:单词距离是建设文档距离的基础。论文做也此处提出一个处理方法为:假设文章中所有单词都可以转变为另一篇文章的所有单词,用一个n*n的矩阵来描述每个单词i的转变损耗(距离)。所以,整篇文章的距离,应该是最小化所有单词的损耗矩阵之和

           优化或运输问题:面对上述提出的优化问题,实际上正是EMD搬土距离的应用

5. WMD的简化距离计算

    5.1 快速距离计算(非WMD)

        质心距离:该距离计算应小于WMD

    RWMD(松弛的WMD): 移除了第二个约束条件。具体的优化实现是:递归舍弃了所有单词对应着最相似单词的概率权重,每一轮只优化T*


选取和快速修剪:通过质心距离WCD来预排序文档,然后精确计算头部k篇文章的WMD距离.随后,我们关注剩下的文章。对于剩下的每一篇,我们首先去检验和第k篇文章的RWMD的下界,如果是, 那就舍弃,如果不是,那就计算一次和第k篇文章的WMD.如果RWMD的估计值非常紧缩,那么上述处理可以裁剪掉95%及以上的文章。

6. 结果和证明:

该论文采取了7种不同的baseline( BOW, TFIDF, BM25 OKapi, LSI, LDA, mSDA, CCG)

 6.1 文档分类

文档相似度通过knn 决策方式对于分类而言是个非常好的标注手段

平均而言,WMD导致了仅有0.42的BOW错误率,胜过其他7种手段和方法。

6.2 词嵌入模型

论文考量了不同的词嵌入模型对WMD的性能影响

6.3 下界和优化剪枝

WMD提升了文档分类的准确性,但是他是拥有最慢的矩阵计算效率。。

7. 贡献和讨论

  WMD矩阵的确使得分类拥有最小的错误率,且越好的词嵌入模型,WMD性能越好。相较于lda, lsi这两种适用 latent 先验分布的方法,不缩放且未做优化的做法可能抵消了大量数据的优势。

WMD首个吸引人的特性是他的可解释性,他可以方便得可视化给人类研究者。另一个吸引点是可以将文档结构纳入了距离计算中。比如说加入正则惩罚项。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354

推荐阅读更多精彩内容