AAAI 2019 | 基于多层转换约束的联合抽取多三元组模型

三元组抽取是自动化构建知识库的关键步骤,传统模型方法一般先处理实体识别,后处理关系分类,忽略了两个任务的关联性,容易造成误差的级联传播;近些年来,基于神经网络的联合方法模型兴起,但是绝大部分的模型只能从一个句子中提取一个三元组。现实场景中一个句子包含多个三元组是很常见的,本文基于上述问题提出了TME模型解决方案。

论文地址:

https://www.aaai.org/Papers/AAAI/2019/AAAI-TanZhen.5454.pdf

引言

三元组抽取的目标是抽取句子中实体和确定实体之间的关系。传统的pipeline模型方法存在忽略两个任务之间的关联性从而导致误差级联传播问题。近些年来提出来的联合抽取模型,则是基于不实用的假设约束,即:一个句子只有关系或者一个关系只是与前面的实体相关,以及还有的只是简单产生很多的实体候选集用于关系分类任务。这些模型忽略了现实生活中,一句话普遍存在多个三元组,比如如下图展示的句子:

tri-part tagging schema

本论文中,作者为了解决上述问题,提出了“基于多层转换约束的联合抽取多三元组模型”,即简称为“TME”,主要贡献在于以下四个方面:

1.提出一个新颖的多层嵌入转换约束机制,用来解决关系中实体对的位置信息,具体如下图:

Multi-layer Embedding Translation  

2.精心设计了一个新的标注方案(tri-part tagging sheme, 参考图1),用来解决区分候选实体集合,去掉不相关的实体,从而减少噪音;

3.设计了一个关系提取的方法,基于转化约束条件的预先设计的关系特征向量,对所有的候选关系进行排序打分,根据阈值来选择top-n triplets;

4.基于负采样的思想,构造相应负样例三元组集合,从而用于模型训练。

数据集

本论文采用NYT-single和NYT-multi作为数据集,如下表:

Dataset Statistics

1.NYT-single: 包含1987-2007的纽约时报文章,总共235k个sentence,去掉无效的和重复的句子,还剩下67k个sentence,其中测试集包含395个sentence, 大部分句子包含一个三元组;

2.NYT-multi: 是NYT-single过滤后的子集,其中测试集合是从NYT-single随机抽取的1000个句子(经统计,39.1%的测试集包含多个三元组),剩余的数据作为训练集。

模型

本论文为了解决多三元组提取任务,提出了TME模型框架,如下图:

Framework of Joint Multi-triplets Extraction Model TME  

模型框架详解如下:

1.Embedding layer: 将序列位置i对应的word embedding, character embedding, capitalization embedding 进行拼接成一个向量,得到成对应位置Bi-LSTM层的input embedding;

2.Bi-LSTM & Hidden layer: 根据input embedding,分别计算出LSTM正向隐藏状态向量和LSTM反向隐藏状态向量,对二者进行拼接得到Hidden layer 某个t时刻的输入向量h_t,该层计算公式如下图:

3.CRF layer: 将Hidden layer输出的所有l进行拼接得到矩阵L,其中维度大小为s \times d_l(s为标记序列的长度),L_{ij}表示对应句子中第i个词对应的第j个tag对应的概率得分,假设得到标记序列y, 打分公式如下图:

其中T表示转移概率矩阵,T_{ij}表示第i个tag到第j个tag的概率得分,Y表示所有可能的标记序列;

4.Tri-part tagging scheme(TTS): 序列标记方案,形式如B-PER-R, I-LOC-N等,包含三部分:

(1)position part(PP): 用BIO方式来进行位置标记;

(2)type part(TP): 用来标记实体的类型,本文实体类型总共有三种类型,即:PER, LOC, ORG;

(3)relation part(RP): 用来标记在句子中的实体是否涉及到某种关系,R/N分别表示涉及到某种关系和没有涉及到某种关系,本论文中总共预定义有24种关系。

5.多层转化机制:通过实体的嵌入表示,来构建多层模型,从而捕获关系特征,具体结构图示见图2。其中e=(x_i, ..., x_{i+j}, ..., x_{i+e_l})即为实体的嵌入表示, i表示实体在句子中的开始位置,j表示实体内的第j个单词,e_l表示实体的长度,这里把实体内所有单词的embedding相加得到实体的嵌入表示,embedding layer和Bi-LSTM layer的实体各自的嵌入表示如下图:

假设r表示relation embedding, 对于句子中某个三元组t=(e1, e2, r)来说,多层转化机制要求e1加上r约等于e2,基于此机制得到embedding layer 和 Bi-LSTM layer各自的打分公式,如下图:

6.目标函数定义

(1)Bi-LSTM + CRF(实体识别部分), 求取最大化对数概率,目标函数定义如下图8:

(2)Margin-based Relation Ranker(关系提取部分), 首先构造针对每一个三元组t=(e1, e2, r)构造负样本集合,负样本集合描述如下图:

为了尽可能区分正负三元组样本,本论文提出了Margin-based Relation Ranker 方法,embedding layer的最大化loss function 形式化如下图:

其中\gamma> 0, 是一个超参数,用来约束正负三元组的边界。同理,Bi-LSTM layer的loss function 如下图:

把上述三者相加得到relation ranker的loss function, 如下图:

(3)联合训练实体识别和关系抽取,最终目标函数定义为:L = L_e + \lambda{L_r}, 其中\lambda是超参数,用来平衡实体识别部分和关系抽取部分,训练方法采用随即梯度下降算法。

7.多三元组抽取:根据上述目标函数训练完成之后,得到相应模型。首先根据CRF对一个句子预测,得到打分最高的序列标记y;接着从序列标记结果得到有关系的候选实体集合;再接着,对候选的实体对,对所有关系r进行打分,打分公式参考图7,对三者相加得到最终的得分;最后根据得分对所有候选的三元组进行排序,根据指定的阈值得到top-n triplets。此处的优势是将关系分类任务转化为关系打分排序任务,使得能够自适应调整。

实验报告

数据集使用New York Times dataset,该数据集包含24种关系,实验结果如下图13,通过对比图中的NYT-single和NYT-multi的数据指标,首先,体现出该模型更擅长于多一个句子多三元组的抽取;其次,负采样可以有效提高P、R、F1相关指标。

NTY 实验结果

除了上述实验,论文还有Ablation Study全面深入的实验结果,突出模型框架中各个部分的重要作用,比如:tri-part tagging scheme的RP和TP, 还有CRF层,以及多层转化约束机制等等。

结论

本论文采用”基于多层转换约束的联合抽取”方法,有效解决一个句子多个三元组抽取的问题,包含情况如下:

1.同一个实体对应多个不同的关系对;

2.同一个关系对应多个不同的实体对;

3.能够去除一些不相关的实体,即该实体并没有涉及到任何关系。

但是,有一点缺陷是,该模型要是用于其他领域数据的多三元组抽取,会面临多数模型都会遇到的问题,即:数据标注代价昂贵,此时可以结合远程监督的方法。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容