利用多粒度信息和外部知识进行中文实体关系抽取

不管坚持是否带有

一种妄想的期待

新的一年,生活、工作还的继续


1 前 言

今天分享2019年ACL一篇关于中文实体关系抽取的paper,<Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge>,出自清华大学。论文的大致思路可以从标题看出:利用多粒度信息和外部知识进行关系抽取。论文中多粒度是指字的粒度和词的粒度结合,外部知识是指HowNet这样的知识库。论文链接,这篇论文的代码也开源了,在GitHub上,代码链接


Introduction

当前关系抽取存在的问题

作者用上图来阐述当前在中文实体关系抽取任务上,主要存在两种问题,一是若分词则存在切分歧义的问题,二是存在一词多义的问题。针对第一个问题,先前有研究提出采取字的粒度,或字和词粒度结合的方法;针对第二个问题,主流的方法是利用外部知识库作为补充信息,进行关系预测。然而,作者发现还没有研究将这两种方法进行融合来做实体关系抽取,因此就有本文的构想。


3 Model

model

论文model的结构图如上图所示,主要包括三层结构:Input Represent ,MG Encoder,Relation Classifier。论文的核心在Encoder层,其基本思想是利用字,词,还有外部知识融合一起,然后重构下LSTM结构。接下来重点说说这块。

3.1 Input Representation

先考虑字级别(Character-level Representation)的embedding输入,具体使用实现训练好的字向量(例如使用word2vec)。此外,考虑每个字与实体对的相对位置的embedding,也成为position embedding,位置编码的的方式如下图:

参考一个实体来说,i为字符在文本的位置索引,b,e为该实体的开始和结束位置索引

最后,一个字符的完整编码为下图,包含一个字向量和两个位置向量。

char  embedding

接着考虑词级别(Word-level Representation)的embedding输入,具体是利用一个词典D对文本进行匹配,如从b-th 到e-th字符组成的词匹配到,就使用这个词的向量,向量同样可以使用word2vec预训练而来。

word embedding

最后,作者要把外部知识(External knowledge)利用起来,具体做法是利用HowNet查找一个词的代表所有含义,作为这个词的含义代表,这样做的好处就是弥补word2vce这种固定分布式表达所带来的缺点。

一个词的K个含义表示(word sense embedding)

如何将一个词的含义用向量表达出来,论文中使用 SAT model,此处作者也没详说。

通过上述步骤,就可以清楚知道Input的变量有字级别的向量,词级别的向量,以及词的对应含义向量。接下来,就是如何将三类变量Encoder,这也是论文的重点。

3.2 Encoder

在Encoder部分,作者分别介绍一个基本版本(Basic Lattice LSTM Encoder)和一个完整版(MG Lattice LSTM Encoder),前者实现字和词的融合的encoder,后者是将字和词的含义向量嵌入encoder中。我们先看看基本版本是如何实现的。

Basic Lattice LSTM Encoder

首先展示出基于字的LSTM结构公式为:

基于字级别的LSTM结构

在将词的embedding加入字的encoder中,先学习词的编码的,具体为:

索引b,e之间的词的表征

接着,作者认为第e个字符的编码表达,应该包括它本身的字表达,还包括以它结尾的所有词的表达。此外,考虑每个词的影响程度不同,引入一个词的输入门:

词的输入门

然后第e个字符的编码被设定为:

嵌入词信息的字符表征

上面涉及两个权重变量,求解的方式类似softmax方式:

两个权重的求解表达式

MG Lattice LSTM Encoder

以上就是基本版本的Encoder的结构,其主要思路就是考虑第e个字符表征时,将以e为结尾的词的表征以加权的形式加入进去。所以,接着,作者提出自己的改进思路,其思路的目的是要在上述的基础上,加入词的sense embedding。

词的第k个含义表征

上述的公式,是将b,e之间的词的每个含义按lstm进行表征,然后将k个表征进行加权来代表这个词的整体含义表征:

词的含义表征

有了词的含义表征,然后按基本版的思路:将其与字的表征结合起来:

嵌入词的含义信息后的字的表征

以上就是作者的核心的思想,总结起来就是将词的所有含义信息表征起来,加入字的表征中,然后做分类预测。

3.3 Relation Classifier

在分类层上,作者没做什么改变:将通过MG Encoder编码后的每个字符的隐藏h向量,接入一个attention层,然后再加一个softmax分类层,损失函数用交叉熵。


4 Experiments

在实验部分,作者使用FinRE,SanWen,ACE三个中文数据集,采用F1值得评价方法,训练结果如下图:

训练结果

结果显示,作者的方法都取得最佳效果,其中MG 方法表现最好,较基本版本的有2%的提升。


5 结 语

这篇论文公式较多,因为简书的编辑器太简单,复杂的公式书写不了,我只好截图方式,有些细节符号我都文字代替了。所以,若想详细理解,还是建议去读原文。

总的来说,作者的思想还是比较简单,公式都是LSTM的基本结构。创新的地方就是将词的含义信息融合字的表征中,其中我有一处个人看法:在求词对应K个含义表征的权重时,我觉得应该考虑上下文信息会更好些。因为实际中,我们在考虑一个多义词的含义时,就是通过语义环境,也就是上下文来判断的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容