实体消岐(2.1) - 论文笔记

Fan X, Wang J, Pu X, et al. On Graph-Based Name Disambiguation[J]. Journal of Data & Information Quality, 2011, 2(2):1-23.

Reference Disambiguation

几乎所有的解决方法都考虑文档的多种属性(title, abstract, author's email, affiliation, coauthor, topic of document, edit distance, revelance of keywords)-->定义feature-based similarity --> 用来判定任意一对文章是同一个作者书写的概率。

  • Kalashnikov and Mehrotra [2006]
  • On et al. [2006]
  • On and Lee [2007]
  • Bekkerman and McCallum [2005]
  • Lee et al. [2005]
  • Han et al. [2004, 2005].

此外,有很多 图模型 方法被用来计算两个对象之间的关系相似度。

  • Minkov et al. [2006] 带标签的有向图 -> 基于lazy graph walk生成关系相似度,实现邮件中人名的消岐。
  • Chen et al 2007, 自适应的图模型来实现消岐,graph中节点的相似度是 节点的传统feature-based similarity节点的connection length 的 组合。

本文 仅考虑connection strength, 计算形式上与Chen2007也不同。

  • Kalashnikov and Mehrotra [2006] 通过 legal path 来定义connection strength,刻画entities之间的连接程度。

  • On et al [2006] 利用Quasi-Clique来探究上下文信息,而不单单考虑节点的相似度。【猜想:这里是指节点与所在团簇的相似度吗?】

Name Disambiguation

当数据量大,手动采集文档的信息(emails, affiliations,...)非常耗时,这些信息有时候在文档中是 缺失的 、或者 包含名称变体 。 【其实这句话,引出本文为什么仅仅用coauthors, 而不用这些信息】

前人的做法:(Two-stage)
①构建相似度度量标准
②选择聚类(分割)方法将文档集合 --> clusters

如,Han et al 2004 提出有监督学习(naive bayes, SVM), 为每一个作者训练一个分类器,随后这些分类器s 用来判定新文献的作者是哪一个实体。缺点:手动标记训练数据很累,此外,按这种策略,“entity的数目==分类器的 数量” 是不切实际的。

Zhang et al 2007, 用6种约束,为半监督name disambiguation 设计了一种概率模型。该模型基于HMM。缺点很多。

Yin et al 2007 结合了两个互补的度量,set resemblance of neighbor tuples and random walk probability. 【看来有必要看一下这个

本文的思路: (5-stage, section4.1-4.5分别介绍)

  • graphical view of the input database
    • Coauthor graph to represent the relations among papers.
  • valid path selection
    • 前提假设:在一段时间内,一个作者的研究方向、机构、coauthors比较稳定。
  • similarity metric among nodes
    • 借鉴并联电路计算总电阻的套路,设计了节点相似度计算函数
  • clustering framework
    • AP聚类算法
  • user feedback

4.1 graphical view of the input database

Coauthorship graph to represent relations among papers

如何能知道r1,r2中的Jiong Yang是同一个人呢?我们不知道啊!!那么为什么能用同一个节点表示!!!完全搞不清作者为什么这么做!!!!

【仔细想想的话认为Jiong Yang是同一个人是有道理的:毕竟不要忘了一个前提,两篇文档中的Jiong Yang有着共同作者Wei Wang,我们有理由相信两个Jiong Yang极有可能是同一个人,这种连接构图形式使得两个WeiWang距离很近】
如果有r7(r7的作者是 Wei Wang 和 Zhang San), 那么上图将出现一个新的孤立小簇,[WeiWang---ZhangSan]. 此时我们该WeiWang从结构上来说与其他6个WeiWang的距离就比较大,这也符合我们从coauthor的角度的直觉判断。因此,总的来说,这种构图还是比较合理的。

4.2 valid path selection

如何计算任意一对WeiWang的similarity呢?
最短路径很耗时,宽度优先搜索耗时 O(|V|+|E|),需要再想办法!
valid path selection的基本思路从large graph筛选一些对计算最短路径有意义的边,而忽略掉一些冗余的边。

4.3 Similarity Computation

The similarity denotes the confidence of two nodes corresponding to the same author

思路很棒,借鉴了并联电路的总电阻 实现了以下considerations:
①考虑路径的长度
②考虑路径的数量

其中sum(i,j)是节点i,j之间的有效路径数量,l_h是路径的长度。巧妙之处在于: ① Lh↓,使得 Sim ↑,② sum(i,j) ↑,使得 Sim ↑ 精妙的借鉴于:1/R = 1/R1+1/R2+1/R3+.... ①并联电路中支路电阻减小会使得整体的电阻减小。 ②支路的增加会使得电阻减小。

后面稍加改进为:
改进的初衷,以及f(x)的具体形式参见原文

4.4 Name Clsutering

  • AP聚类,对于n个WeiWang, 输入为nxn的相似度矩阵,输出是n个WeiWang的类别划分。

4.5 User Feedback

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容