实体链接的相关研究有着重要的意义:
- 首先,实体链接有助于知识库自动填充的研究:知识库是现实中真实存在的实
体的集合,知识库内的每个实体都包含了该实体的相关知识,所谓的实体链接实际
上就是建立文本中实体表述与知识库中实体之间的映射关系,建立文本与知识之间
的联系。这样就可以利用文本中某个实体的相关信息来自动填充知识库中的对应实
体的知识。 - 其次,有助于信息检索的研究:由于命名实体重名,多名现象的存在,使得用
户在网络上检索信息时,无法准确快速地检索到目标实体的相关信息,如果预先对
页面进行实体链接处理,那么就让用户可以快速方便地找到实体表述所对应实体的
信息。 - 另外,实体链接与跨文本指代消解、词义消岐,实体消岐等诸多自然语言研究
领域有着紧密联系。因此,开展实体链接的相关研究,一方面可以借鉴上述领域的
研究方法和成果,另一方面也可以反过来促进其它领域的研究。
实体链接的研究主要分两大块:
- 候选集合的生成 (候选生成)
- 对候选集合的消岐 (候选排序)
本文主要总结候选排序方法,候选实体集合的生成 在另一篇博文中详述。
Content
- 基于流行度的候选实体排序
- 基于上下文相关性的候选实体排序
- 基于字面相似度(Surface Form Similarity)
- sim(x,y):编辑距离(edit length), Dice系数,Jaccard相似度
- 基于文本相似度(Text Similarity)
- sim(x,y):余弦相似度、KL散度、概率模型相似度(Probabilistic Model Similarity)
- 基于实体相关度(Entity Relatedness)
- 基于图的连接度
- 基于M&W相似度
- 基于字面相似度(Surface Form Similarity)
- 基于有监督学习的候选实体排序
其中,概率模型相似度 又可以细划分为:基于主题模型 (计算主题相似度)和基于语言模型 (计算生成概率)。
基于流行度的候选实体排序
- 该方法的基本假设是流行程度( Popularity) 越高的候选实体作为目标实体的可能性越大。例如,Michael Jordan 这个名字既可能指向一位前 NBA 著名球员, 也可能专指一位机器学习领域的教授。二者相比, 那位 NBA 球员的知名度更高,提及其的文章也会更多。因此随机一篇文章中出现 Michael Jordan( NBA 球员) 的可能性就将比出现 Michael Jordan( 教授) 的可能性要大。而基于实体流行度的方法即根据流行程度对候选实体进行排序,并将流行度最高的候选作为链指结果。
- 衡量实体流行度的方法包括实体在 Wikipedia 页面的描述文本长度、地点实体的面积或人口总数、实体频度和查询名称到实体超链的频度等。
- 基于实体流行度的方法的优点在于实现简单, 训练语料也相对容易获得。有些查询名称的词义分布相对集中, 在大多数情况下的含义也都是最常见词义, 只是针对这些查询名称,该种方法较为有效。基于实体流行度的方法的缺点在于没有考虑上下文。这就使得无论查询名称的上下文是什么,这种方法都会给出一样的答案,而当目标实体不是最流行实体时就会出错。此外,这种方法在统计实体流行度的时候多会依赖于 Wikipedia 这样的训练语料, 得到的是训练语料上的实体流行度分布,而标注语料的实体流行度分布却并不一定和训练语料彼此一致,因此也会引入标注错误的风险。
注释: 流行度(popularity) 要与一些论文中的 commonness(常见度) 做区分, commonness刻画为: p(entity=e) = |in(e)| / |W|, 其中 in(e)是指向实体e的文档集合. 此外, 该值也可刻画为 p(entity=e) = |(anchors->e)| / |E| . 这些名词在不同的文献中有着不同的定义,一定要注意!
基于上下文相关性的候选实体排序
-
基于字面相似度 sim(查询名称, 候选实体名称)
- sim(x,y):编辑距离(edit length), Dice系数,Jaccard相似度
-
基于文本相似度 sim(查询文档, 候选实体文档)
- 常见的sim(x,y): 余弦相似度、KL散度、概率模型相似度(Probabilistic Model Similarity)
- 余弦相似度:文本-> vector(存储word的tf-idf值s)->计算两篇文本相似度
- KL散度,计算关键词(w1,w2,...)构成的离散频率分布--> 计算两篇文本的相似度。
- 概率模型相似度(概率模型包括主题模型和语言模型):实体链接中的概率模型 主要有一元模型(∈语言模型)和主题模型。[1-2]
- 基于主题模型的候选实体消岐方法,利用查询表述所在上下文与候选实体消岐文本的主题一致性程度来衡量查询表述与候选实体之间“匹配度”。[1-2]
- 基于语言模型的方法:计算文档在概率模型下生成的概率。用生成概率来表示查询文档与实体概率模型之间的相似度。Zornitsa和 Ravi,Han和 Sun 用生成模型来完成对于候选实体的消岐,认为生成概率最大的候选实体为查询表述所要链接的对象。[1-2]
- 常见的sim(x,y): 余弦相似度、KL散度、概率模型相似度(Probabilistic Model Similarity)
-
基于实体相关度 sim(查询文档实体,候选文档实体)
主要比较上下文中的实体与候选实体的相关度基于图的连接度
首先,基于图连接度的方法可将上下文构造成为一个图。图中的节点为候选实体与上下文中的实体及其指称。如果候选实体的 Wikipedia 页面包含了一个上下文指称, 就从此候选实体节点向上下文指称节点引一条有向边; 如果上下文实体的 Wikipedia 页面包含了候选实体, 就从此上下文节点向候选实体引一条有向边。基于图连接度的方法将选择出度或入度最大的候选实体作为链指结果。-
基于M&W 相似度
M&W 相似度源自 M&W 距离, 是Milne和 Witte提出的一种基于Wikipedia的语义 距离度量方法。M&W 距离类似于规范化的Google 距离( Normalized Google Distance),是用两个实体在 Wikipedia 中被同一页面引用次数以及这两个实体各自被引用的次数来共同计算语义距离。
利用 M&W 相似度可以计算出候选实体与上下文中其他实体的相关性, 从而得到候选实体与全文主题的一致程度与全文主题一致程度越高的实体,就越有可能是目标实体.
注释: 这种描述是全局性的优化global optimization, 也就是说在进行EL时并不是孤立的考虑文档中单个spot, 而是会让多个spots所对应的entities之间有着高的一致性(一致性可以用Relatedness来衡量) , 关于Relatedness的计算, 以下论文还可以参考:
--D. Milne and I. H. Witten. Learning to link with wikipedia, 2008. (提出的Relatedness指标很大程度上是受到Normalized Google Distance的启发)
-- Ratinov L, et al. Local and Global Algorithms for Disambiguation to Wikipedia[C], 2011. (总结了实体链接的局部以及全局性的方法.)
local: p(Entity=e | Mention=m)
global: p(Entity=e | Mention=m1, Mention=m2, ... ), 注意这里指的是同一篇文档中的所有mentions.
基于“有监督学习”的候选实体排序
基于分类器排名
通过抽取大量的语言特征,通过训练数据训练出一个排名模型,用该模型对测试数据中的候选实体进行候选实体排名,以分类器的输出结果作为最终的答案。此类方法包括了Point Wise 以及 Pairwise 两种类型。Zheng采用列表式排序学习算法List Net, 融合提取的多种语言特征进行候选实体的消岐,此种方法属于List Wise 的排名学习算法,颇为有效。Li 在此基础上,加入二元分类模型来完成最终的实体链接。
此外,基于决策树的候选实体消岐方法,抽取大量的语言特征,使用训练数据训练一棵决策树,并用该决策树来对候选实体进行消岐。
参考文献:
[1]. 郭宇航, 秦兵, 刘挺,等. 实体链指技术研究进展[J]. 智能计算机与应用, 2014, 4(5):9-13.
[2]. 舒佳根. 中文实体链接研究[D]. 苏州大学, 2015.
[3]. D. Milne and I. H. Witten. Learning to link with wikipedia, 2008.
[4]. Ratinov L, et al. Local and Global Algorithms for Disambiguation to Wikipedia[C], 2011.