WWW 2017|知识库支持下的归类实体与关系联合抽取

实体以及它们之间关系的抽取对于理解海量文本语料库来说是非常重要的。传统的实体关系抽取系统都依赖于人工标注的训练语料并采用了增量式的处理管道。这样的系统在面对新的领域语料时需要额外的人类专家进行标注,而且在管道框架中上游模块产生的错误容易累积影响下游模块的效果。因此,本文提出了一种利用知识库启发式获取标注数据的实体与关系联合抽取框架。

论文地址:

https://arxiv.org/pdf/1610.08763.pdf

论文代码:

https://github.com/INK-USC/DS-RelationExtraction

引言

识别出文本中的实体并对其进行归类,与此同时标记实体间的关系是从文本语料中提取结构化信息的关键。传统的信息抽取系统倾向于把整个流程切分成数个子任务,如从文中发现实体,标注实体类型,然后抽取它们之间的关系。这样的系统会独立处理每个子任务,所以上游任务有可能把产生的错误传导到下游任务中。此外,在联合抽取任务中的一大挑战就是如何设计一个与领域无关的系统以应对不同领域内缺乏人工标注的数据集。当前大量出现的各种特定领域的文本语料库急需能在仅有少量或没有人工标注监督的情况下进行联合抽取的方法。

图 1:知识库支持下的信息抽取

本论文中,作者为了解决上述问题,提出了“知识库支持下的归类实体与关系联合抽取”,即简称为“COTYPE”,主要贡献在于以下四个方面:

1.提出一种新型的远程监督框架---COTYPE,用于在特定领域语料库中最小化使用语言学假设的情况下抽取实体以及相关关系,具体如下图2:

图 2:COTYPE框架总览

2.设计了一个与领域无关的文本分割算法用于识别实体条目(Entity Mention);

3.设计了一个抗噪声的联合嵌入目标函数来对条目之间的关系,条目-文本特征之间的共现,以及实体-关系间的交叉约束进行建模;

4.在三个公共数据集上的实验表明COTYPE显著地提升了SOTA在实体归类以及关系抽取的表现,展示了其领域无关性。

数据集

本论文采用NYT、Wiki-KBP和BioInfer作为数据集,数据集特性如下表1:

表 1: Dataset Statistics

表 1: Dataset Statistics

1.NYT:训练语料包括从1987至2007年见纽约时报(New York Times)大概294k篇新闻中抽取的1.18M个句子。此外有395个句子由人工标注用作测试数据。

2.Wiki-KBP:从大约780k篇维基百科文章中抽取的1.5M个句子用作训练集,此外有14k条人工标注的数据用作测试集。

3.BioInfer:包含1530段手工标注的生物医学论文摘要充当的测试数据,以及100k段从PubMed论文中抽取的摘要充当训练数据。

COTYPE框架

本文提出了一个结合远程监督的基于嵌入的框架,概要介绍参考图2:

1.利用知识库中的正样例,在带有POS信息的语料库D中运行POS约束下的文本分割算法,识别出候选实体条目集M。我们把这一阶段命名为实体条目识别(Entity Mention Detection)。传统的实体识别系统依靠一系列语言学特征(如句子依存分析)来训练一个序列标注模型。但是这种方法在远程监督生成的自动标注数据库中使用显然是不合适的,因为远程监督生成的数据中仅有相当小的一部分被标注为正样例,大量实体未得到标注。因此一个与领域无关的文本分割算法用于定位实体是很有必要的。本文的思路是通过挖掘固定长度的word sequence和POS tag sequence,结合语料库级别的特征和句子级别的词汇信息来训练两个随机森林分类器,分别评估候选word sequence以及候选POS tag sequence的质量,再加权得到当前分割状态的得分。

然后通过最大化“联合切分得分”(Joint Segmentation Quality)来找到整个输入文本最合适的切分方法。“联合切分得分”的表达式为:,其中代表着当前切分(在文本中起始位置为结束位置为的word sequence)

2.从M中生成候选关系条目集Z,对其中每个关系条目以及对应的实体条目参数抽取文本特征。然后利用远程监督生成标注数据集。本框架利用的文本特征如下表:

表 2: 本文所用文本特征,参考输入句子“Honolulu native Barack Obama was elected President of the United States on March 20 in 2008.”

3.联合对关系、实体、文本特征和类型标签进行嵌入计算,将其嵌入到2个低维空间中(分别对应实体与关系)。在这些低维空间中,相近的元素一般共享着同样的类型。这一切都基于三个假设。假设1(Mention-Feature Co-occurrence):当两个实体条目拥有较多共同的文本特征时,它们倾向于属于同一个类型(在低维空间中相近),反之亦然。假设2(Partial-Label Association):一个关系条目的嵌入向量应该与跟它最相关的候选类型,比其它不相关的候选类型更接近。假设3(Entity-Relation Interaction):对于一个关系条目,的嵌入向量应该与的嵌入向量以及关系的嵌入向量和相近。基于这三个假设,本文提出了3个不同的建模目标函数。第一个是关系类型建模:

其中是语料库级别的损失,是句子级别的损失。第二个是实体类型建模,与关系类型建模类似:

第三个是联合模型:

其中,是负采样集合。最终的优化目标函数为:

整个训练算法如下:

4.通过最邻查找在学习得来的嵌入向量中对每个关系条目测试样例预测类型标签,以及对每个实体条目测试样例预测类型路径}Y∗。

实验结果

作者在NYT,Wiki-KBP,BioInfer三个数据集上分别做了实体检测、关系抽取、end-to-end关系抽取的对比实验,都有比较大的提升。

表 3:实体识别与归类对比实验

表 4:关系分类对比实验(Accuracy)

表 5:端到端关系抽取对比实验

结论

本文利用Distant Supervision和Weakly Supervision实现了一个对文本中的实体与关系联合抽取的框架,整个过程中极大地减少了人工标注成本,同时具备很强的领域迁移性。端到端的抽取降低了错误随管道流转的可能性。唯一值得诟病的可能是其中的text feature是涉及到了人为设计的方面,后续的改进应该会使用深度神经网络代替这种人为的特征工程。

扫码识别关注,获取更多新鲜论文解读

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,076评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,658评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,732评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,493评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,591评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,598评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,601评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,348评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,797评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,114评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,278评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,953评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,585评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,202评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,180评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,139评论 2 352

推荐阅读更多精彩内容