细粒度实体类别标记《Ultra-Fine Entity Typing》


论文
代码位置1 or 代码位置2
实验数据

17,18年之前的实体类别划分算是粗类别的划分吧,主要分为:人名、地名、组织机构、专有名词等。今天介绍的这篇论文是关于实体类型进一步细分的问题。
例句:“张三抢劫了李四,张三最终被抓住了。”
粗粒度实体识别:张三:人名;李四:人名。
细粒度实体识别:张三:人名、犯罪分子;李四:人名、受害者。
实体的细粒度划分,在垂域、特定领域是有一定的利用价值的,所以该问题的研究值得关注。

一、背景

为什么需要实体细粒度划分?
文章:张三抢劫了李四,张三最终被抓了。
问:谁是罪犯? ——(有助于阅读理解、知识问答)
如下图所示,一个英语句子中的实体被‘{}’标识出来了,细粒度实体识别任务就是判别该实体的细分类型是什么。第2个句子中的They实体,它的细粒度实体类型有:人、被告人、嫌疑犯。

该篇文章定义细粒度实体划分任务为:给出一个句子及标注好的实体,现要找出可以描述这个标注实体的所有名词。以前的关系抽取、问答系统、问句分析、共指消解等系统都是用比较粗糙的本体类型来进行实体类型划分的。然而,人工设计本体的任务太耗费成本,且只考虑到有限领域的部分概念。
下图是三个数据,实体类别数量与占比图,圆圈越大表示该类别占数据集的比例越大。

1)这个数据集的“other”类别太多了,前5个类别总和达到了数据的70~80%。
OntoNotes

2)这个数据集的实体类别标签也比较少,且前5种类别总和达到了数据的70~80%。
FIGER

3)这个数据集是该篇文章自建的一个数据集,它的实体类别种类繁多。更适合用来做细粒度实体识别任务。注:实验数据可下载:数据
6000个实例,2500种类别
这个数据集是从多个领域数据集中采样抽取出来的,然后用名词来表示实体类型,一个句子中的实体由5个人来标注其细粒度实体类别,然后选3/5的标注词为该实体的细粒度实体类别。
9个大类:person, location, object, orga-nization, place, entity, object, time, event
121个细分类:(e.g. film, athlete)
10201个再细分类: (e.g. detective, law-suit, temple, weapon, composer)
paper's data

二、模型

问题定义:给一个句子且标注出句子中的实体e,需要预测实体e的类别。
如:“Bill Gates has donated billions to eradicate malaria.” 实体Bill Gates的实体类别应该是“慈善家”,而不是“发明家”。这种标注出来的具有区别性质的实体类别,对文本语义理解和问答系统有帮助。

1.实体两端的上下文处理过程

给一个句子x_{1},x_{2},...,x_{n},句子的每一个词x_{i}都一个对应的预训练好的词向量v_{i},每一个有自己的位置向量l_{i},然后将词向量与位置向量拼接起来:[词向量;位置向量]==[x_{i};l_{i}],这作为bi-LSTM的输入,经过bi-LSTM处理后,每一个词的语义表示为h_{i}。与前人不同的是,该篇论文用两个独立的bi-LSTMs来处实体两边的文本。

以上公式是用一个MLP注意力机制来处理,与一个注意力权重变量矩阵相乘,然后用relu激活函数来激活它,然后再乘以一个注意力机制参数,最后选取。以上就是实体上下文的处理过程,最终得到上下文的语义表示向量。

2.实体自己处理过程

一个实体如:Bill Gates也是有两个英语单词构成的,所有由词向量到实体向量也得有一个转换过程:a)用CNN对实体进行特征抽取处理;b)词向量加权求平均。得到的实体向量表示为m,最终上下文和实体的语义向量表示为预测的类别向量:r=[c;m]

3.标签预测

类别矩阵W_{t}\in \mathbb{R}^{n\times d},其中n表示标签的数量,d表示类别r的维度。其实这个大类别矩阵由三个子矩阵组成:W_{general}=9d维,W_{fine}=121d维,W_{ultra}=10201*d维。将上面1.2步骤处理得到的预测类别向量r与这个大的类别矩阵进行相似度计算:r:y=\sigma (W_{t}r),用sigmoid函数处理最终的值,这相当于是一个多标签问题。那些y_{t}>0.5的类别都视为预测得到的细粒度标签们。

4.损失函数

由上可知,这是一个多标签问题,模型的最后输出也是用的sigmoid函数做处理。该论文为这个模型定义了一个新的损失函数如下:


其中,是一个检查函数,检查t类别是否在这个category里,另一个计算公式如下:

三、结果

四、总结

该篇论文主要是自己构建了一个新的数据集,并在这个数据集上将前人的模型进行改进后做实验,取得一定的效果。这篇文章的模型思路不难理解,只用到了两类神经网络函数bi-LSTM、CNN,且定义了一个区分类别的损失函数。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351