《Leveraging Multi-Token Entities in Document-Level Named Entity Recognition》
-
动机:
1.以往对NER的研究都是基于句子级别的研究,最好的模型也是基于独立的句子级别的,但在一篇文章中,不同句子中的同一实体可能由于不同的上下文或不完整的描述而被错误的标注成了不同的实体,因此作者提出利用文档级别的上下文信息提取同一提及的文档级别的特征
2.作者将数据集中的实体分为multi-token entity和single-token entity,在作者看来,multi-token entity 所在的上下文通常更具体,因此多个token组成的实体更有可能对与其包含相同token的单个实体的识别有所帮助,为此作者设计了一个multi-token entity 分类器,以标记某个实体是否是multi-token entity,在形成文档级特征时,不仅考虑到不同句子中的相同token的上下文输出的隐藏向量之间的语义attention score,而且将分类器的结果也计算attention score,并将其二者融合,主要目的是为了让模型更关注multi-token entity
贡献:
1.提出了一种新的基于注意的文档级NER模型,该模型利用跨句子的全局上下文特征作为本地上下文特征的补充
2.利用文档中的multi-token entity来帮助NER,利用多分类器的结果来指导生成文档级特征,并最终影响NER的结果
3.实验结果证明了该方法的有效性-
模型:
以上是整个模型的框架,大致分为4个部分:
1.word embedding +char CNN embedding + sentence-level lstm
2.Muti-Token entity Classification:
从图中可以看出,分类器的输入主要是目标token及其前面一个token和后面一个token的lstm隐藏向量输出,输出有3类,分别是SUB、NSUB和Other,SUB指示它是一个multi-token entity,NSUB指示它是一个single-token entity,其他为other
3.document-level module:
以上是文档级别的特征表示的具体架构图,可以看到输入为lstm的隐藏向量输出和多分类器的结果输出,最终attention score为二者attention score相加
最终得到的ai是隐藏向量的权重,相当于指示不同句子中的相同token之间的关系的大小,di是该token的文档级特征表示
4.CRF 标签预测 -
实验:
1.数据集:
对于Ontonotes数据集,只取了新闻专线(nw)、广播新闻(bn)和杂志部分的数据集组成了Ontonotes(nbw),其他部分的数据集全局相关性较弱,比如:微博数据
2.实验结果:
其中glove、bert-base、flair是用不同的向量去初始化word embedding的结果 -
case 分析:
为了体现ME 分类器的作用,作者选取了CoNLL 2003数据集中的两个例子来做分析:
1.例1中的第二句话中MEID-ME(上述作者提出的模型去掉了ME部分)模型错误地将“Matsushita”单词识别成了ORG,而MEID(作者提出的模型)能够将其正确地识别成PER,从以下两图能够看出,未加ME部分时,occ_2与occ_1之间的attention score不是很高,而b图中,二者之间的attention score明显上升,因此最终的识别结果是MEID模型识别正确
2.例2中“ZIMBABWE OPEN”是一个multi-token entity,由于第一个句子太短,仅仅只是一个title,所以对于MEID-ME模型来说,它可能更多地将其与3,4,5句子中的Zimbabwe联系起来,所以导致最终的识别结果出错,但MEID模型更多地将其与第2个句子联系起来,所以最终将其正确识别成了MISC类别,从下面的c图(MEID-ME)可以看出,occ_1与occ_3、occ_4、occ_5的attention score最高,但d图中(MEID),occ_1与occ_2的attention score最高
3.还有一个现象,d图中,occ_3,occ_4,occ_5与occ_1和occ_2的attention score也很高,但最终的识别结果却没出错,猜测可能是在最终进行标签预测时,本地的上下文特征起了主导作用(从整个模型的架构图可以看到,最终是将hidden state和document representation 拼接起来),所以需要将二者融合,共同对最终的预测起作用