实体链接之候选实体排序

实体链接的相关研究有着重要的意义:

  1. 首先,实体链接有助于知识库自动填充的研究:知识库是现实中真实存在的实
    体的集合,知识库内的每个实体都包含了该实体的相关知识,所谓的实体链接实际
    上就是建立文本中实体表述与知识库中实体之间的映射关系,建立文本与知识之间
    的联系。这样就可以利用文本中某个实体的相关信息来自动填充知识库中的对应实
    体的知识。
  2. 其次,有助于信息检索的研究:由于命名实体重名,多名现象的存在,使得用
    户在网络上检索信息时,无法准确快速地检索到目标实体的相关信息,如果预先对
    页面进行实体链接处理,那么就让用户可以快速方便地找到实体表述所对应实体的
    信息。
  3. 另外,实体链接与跨文本指代消解、词义消岐,实体消岐等诸多自然语言研究
    领域有着紧密联系。因此,开展实体链接的相关研究,一方面可以借鉴上述领域的
    研究方法和成果,另一方面也可以反过来促进其它领域的研究。

实体链接的研究主要分两大块:

  • 候选集合的生成 (候选生成)
  • 对候选集合的消岐 (候选排序)

本文主要总结候选排序方法,候选实体集合的生成 在另一篇博文中详述。


Content

  1. 基于流行度的候选实体排序
  2. 基于上下文相关性的候选实体排序
    • 基于字面相似度(Surface Form Similarity)
      • sim(x,y):编辑距离(edit length), Dice系数,Jaccard相似度
    • 基于文本相似度(Text Similarity)
      • sim(x,y):余弦相似度、KL散度、概率模型相似度(Probabilistic Model Similarity)
    • 基于实体相关度(Entity Relatedness)
      • 基于图的连接度
      • 基于M&W相似度
  3. 基于有监督学习的候选实体排序

其中,概率模型相似度 又可以细划分为:基于主题模型 (计算主题相似度)和基于语言模型 (计算生成概率)。

基于流行度的候选实体排序

  • 该方法的基本假设是流行程度( Popularity) 越高的候选实体作为目标实体的可能性越大。例如,Michael Jordan 这个名字既可能指向一位前 NBA 著名球员, 也可能专指一位机器学习领域的教授。二者相比, 那位 NBA 球员的知名度更高,提及其的文章也会更多。因此随机一篇文章中出现 Michael Jordan( NBA 球员) 的可能性就将比出现 Michael Jordan( 教授) 的可能性要大。而基于实体流行度的方法即根据流行程度对候选实体进行排序,并将流行度最高的候选作为链指结果。
  • 衡量实体流行度的方法包括实体在 Wikipedia 页面的描述文本长度、地点实体的面积或人口总数、实体频度和查询名称到实体超链的频度等。
  • 基于实体流行度的方法的优点在于实现简单, 训练语料也相对容易获得。有些查询名称的词义分布相对集中, 在大多数情况下的含义也都是最常见词义, 只是针对这些查询名称,该种方法较为有效。基于实体流行度的方法的缺点在于没有考虑上下文。这就使得无论查询名称的上下文是什么,这种方法都会给出一样的答案,而当目标实体不是最流行实体时就会出错。此外,这种方法在统计实体流行度的时候多会依赖于 Wikipedia 这样的训练语料, 得到的是训练语料上的实体流行度分布,而标注语料的实体流行度分布却并不一定和训练语料彼此一致,因此也会引入标注错误的风险。

注释: 流行度(popularity) 要与一些论文中的 commonness(常见度) 做区分, commonness刻画为: p(entity=e) = |in(e)| / |W|, 其中 in(e)是指向实体e的文档集合. 此外, 该值也可刻画为 p(entity=e) = |(anchors->e)| / |E| . 这些名词在不同的文献中有着不同的定义,一定要注意!


基于上下文相关性的候选实体排序

  1. 基于字面相似度 sim(查询名称, 候选实体名称)

    • sim(x,y):编辑距离(edit length), Dice系数,Jaccard相似度
  2. 基于文本相似度 sim(查询文档, 候选实体文档)

    • 常见的sim(x,y): 余弦相似度、KL散度、概率模型相似度(Probabilistic Model Similarity)
      • 余弦相似度:文本-> vector(存储word的tf-idf值s)->计算两篇文本相似度
      • KL散度,计算关键词(w1,w2,...)构成的离散频率分布--> 计算两篇文本的相似度。
      • 概率模型相似度(概率模型包括主题模型语言模型):实体链接中的概率模型 主要有一元模型(∈语言模型)主题模型。[1-2]
        • 基于主题模型的候选实体消岐方法,利用查询表述所在上下文与候选实体消岐文本的主题一致性程度来衡量查询表述与候选实体之间“匹配度”。[1-2]
        • 基于语言模型的方法:计算文档在概率模型下生成的概率。用生成概率来表示查询文档与实体概率模型之间的相似度。Zornitsa和 Ravi,Han和 Sun 用生成模型来完成对于候选实体的消岐,认为生成概率最大的候选实体为查询表述所要链接的对象。[1-2]
  3. 基于实体相关度 sim(查询文档实体,候选文档实体)
    主要比较上下文中的实体与候选实体的相关度

    • 基于图的连接度
      首先,基于图连接度的方法可将上下文构造成为一个图。图中的节点为候选实体与上下文中的实体及其指称。如果候选实体的 Wikipedia 页面包含了一个上下文指称, 就从此候选实体节点向上下文指称节点引一条有向边; 如果上下文实体的 Wikipedia 页面包含了候选实体, 就从此上下文节点向候选实体引一条有向边。基于图连接度的方法将选择出度或入度最大的候选实体作为链指结果。

    • 基于M&W 相似度
      M&W 相似度源自 M&W 距离, 是Milne和 Witte提出的一种基于Wikipedia的语义 距离度量方法。M&W 距离类似于规范化的Google 距离( Normalized Google Distance),是用两个实体在 Wikipedia 中被同一页面引用次数以及这两个实体各自被引用的次数来共同计算语义距离。

      d_MW( a,b) 是实体 a 和 b 的 M&W 距离, 两个实体共现的页面越多, 单独出现的页面越少, 这两个实体的 M&W 距离就越短, 相关度也就越高, 详细的定义查看下方注释

      利用 M&W 相似度可以计算出候选实体与上下文中其他实体的相关性, 从而得到候选实体与全文主题的一致程度与全文主题一致程度越高的实体,就越有可能是目标实体.
      注释: 这种描述是全局性的优化global optimization, 也就是说在进行EL时并不是孤立的考虑文档中单个spot, 而是会让多个spots所对应的entities之间有着高的一致性(一致性可以用Relatedness来衡量) , 关于Relatedness的计算, 以下论文还可以参考:
      --D. Milne and I. H. Witten. Learning to link with wikipedia, 2008. (提出的Relatedness指标很大程度上是受到Normalized Google Distance的启发)
      M & W relatedness, a和b指代两个实体, 关键在于衡量同时指向a和b的文档数量, 其原型是maxSim =|a∩b| / max{|a|,|b|} <--Jaccard's variant

      -- Ratinov L, et al. Local and Global Algorithms for Disambiguation to Wikipedia[C], 2011. (总结了实体链接的局部以及全局性的方法.)
      local: p(Entity=e | Mention=m)
      global: p(Entity=e | Mention=m1, Mention=m2, ... ), 注意这里指的是同一篇文档中的所有mentions.


基于“有监督学习”的候选实体排序

  1. 基于分类器排名
    通过抽取大量的语言特征,通过训练数据训练出一个排名模型,用该模型对测试数据中的候选实体进行候选实体排名,以分类器的输出结果作为最终的答案。此类方法包括了Point Wise 以及 Pairwise 两种类型。

  2. Zheng采用列表式排序学习算法List Net, 融合提取的多种语言特征进行候选实体的消岐,此种方法属于List Wise 的排名学习算法,颇为有效。Li 在此基础上,加入二元分类模型来完成最终的实体链接。

  3. 此外,基于决策树的候选实体消岐方法,抽取大量的语言特征,使用训练数据训练一棵决策树,并用该决策树来对候选实体进行消岐。


参考文献:
[1]. 郭宇航, 秦兵, 刘挺,等. 实体链指技术研究进展[J]. 智能计算机与应用, 2014, 4(5):9-13.
[2]. 舒佳根. 中文实体链接研究[D]. 苏州大学, 2015.
[3]. D. Milne and I. H. Witten. Learning to link with wikipedia, 2008.
[4]. Ratinov L, et al. Local and Global Algorithms for Disambiguation to Wikipedia[C], 2011.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,717评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,501评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,311评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,417评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,500评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,538评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,557评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,310评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,759评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,065评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,233评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,909评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,548评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,172评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,420评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,103评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,098评论 2 352

推荐阅读更多精彩内容