1.Introduction
关系抽取:从给定的非结构化文本中识别实体之间的关系,组成关系三元组(ei, rk, ej)。
2.Related Work
3.Model
REBEL是一种基于BART的seq2seq模型,将关系提取和分类作为生成任务来处理,使用自回归模型输出输入文本中的每个三元组。
输入:使用新数据集进行预训练
输出:把简单的三元组分解为文本序列(使模型能够以三元组的形式输出文本中的关系,同时最小化需要解码的token数量)
预训练模型:BART
loss function:Cross-Entropy
如下图:如果x是输入句子,y是线性化关系后的三元组,REBEL 的任务是对于给定的x生成y。
3.1Triplets linearization
模型的输出为线性化关系后的三元组,如图所示:<triplet>表示一个新的头实体的开始,同一个头实体“This Must Be the Place”对应两个尾实体、两个关系。<subj>表示尾实体的开始,<obj>表示尾实体的结束,关系的开始。
下图是将上图左侧转化成右侧的算法:
3.2 REBEL dataset
Bart/T5:表现良好、需要大量数据进行训练,但关系提取数据集小。
(2018) T-REx :从 DBpedia 摘要中提取实体和关系,克服了数据集小的问题,但注释的质量存在一些问题(链接较老,抽取的实体有问题,对应的关系也会有问题)。
REBEL数据集:扩展T-REx,使用 Wikipedia2 摘要,即每个 Wikipedia 页面在目录之前的部分,使用 wikiextractor (Attardi, 2015) 提取。 然后,使用 wikimapper3 将文本中存在的实体作为超链接以及日期和值链接到 Wikidata 实体。 由此,提取了维基数据中这些实体之间存在的所有关系。
下图是REBEL数据集和其他数据集的对比
4.Experiments
5.Conclusion
1.一种自回归方法,将关系提取作为一项seq2seq任务
2.把简单的三元组分解为文本序列
3.扩展预训练数据集
4.可用于关系抽取、关系分类