摘要:
本文的内容主要分为以下5个部分:
1.标记的NER语料库
2.现成的NER工具
3.根据以下3个方面对现有的paper进行分类:输入的分布式表示、上下文编码器和标记解码器
4.在新的NER问题设置和应用中最近应用的深度学习技术中最具代表性的方法
5.面临的挑战和发展方向
写综述的意义(motivations):
1.通过比较深度神经网络结构的选择,找出影响NER性能的因素以及问题和挑战
2.前人所写的综述不完整,只侧重某些方面,本文主要是从输入的分布式表示的角度来阐述NER的最新进展
NER数据集和现有的工具:
传统的NER方法:
- 基于规则的方法:基于规则的NER系统依赖手工制定的规则。规则可以根据特定领域的地名录和句法词汇模式来设计。在生物医学领域,Hanisch等人利用预处理的同义词词典来识别生物医学文本中提到的蛋白质和潜在的基因。Quimbaya等人提出了一种基于字典的方法,用于电子健康记录中的NER。实验结果表明,该方法在提高召回率的同时,对精确率的提高有限。
当词典详尽无遗时,基于规则的系统工作得很好。由于特定领域的规则和词典不完整,在这类系统中经常会出现高精度和低召回率的现象,并且无法将系统转移到其他领域。 - 无监督学习方法:一种典型的无监督学习方法是聚类。基于聚类的NER系统基于上下文相似度从聚类中提取命名实体。关键的思想是,在大型语料库上计算的词汇资源、词法模式和统计数据可以用来推断命名实体的提及。
Nadeau等人提出了一种无监督的地名索引建立和命名实体模糊度解决系统。该系统基于简单高效的启发式算法,将实体提取和消歧相结合。此外,Zhang和Elhadad提出了一种从生物医学文本中提取命名实体的无监督方法。他们的模型采用术语、语料库统计(如:逆文档频率和上下文向量)和浅层句法知识(如名词短语分块)来代替监督。在两个主流的生物医学数据集上的实验证明了其无监督方法的有效性和通用性。 - 基于特征的监督学习方法:机器学习算法已经被应用于有监督的NER中,包括隐马尔科夫模型(HMM)、决策树、最大熵模型(MEM),支持向量机(SVM)和条件随机场(CRF)等
深度学习技术:
-
输入的分布式表示:1.词级表示 2.字符级表示 3.混合表示
1.词级表示:Word2vec、Glove、fastText、SENNA、ID-CNNs
Bio-NER 在PubMed数据库上使用跳字模型训练的
2.字符级表示:字符级表示相对字级表示的优点:1)字符级表示对于提取子词信息(如:前缀和后缀)很有用 2)它能有效解决OOV的问题
有两种广泛使用的提取字符级表示的体系结构:基于CNN的模型和基于RNN的模型
3.混合表示:词汇相似度、词性标注、分块、语义依赖、多模态(嵌入视觉特征)
其他特征:拼写特征、上下文特征、单词嵌入、地名录特征、大小写特征 上下文编码结构:CNN、RNN(循环神经网络)、递归神经网络
-
标签解码器结构:
softmax和CRF是我们常见的两种解码器结构。RNN也可以作为解码器,隐藏层的输入除了有编码层的输入,还包括前一个已经识别出来的标签。指针网络将NER当作先识别出“块”然后再进行分类
-
基于深度学习的NER的总结:
架构的比较:
1.怎样引入外部知识尚未达成共识,引入之后的效果确实会有所提升,但缺点也是明显的:1)获取代价高 2)引入外部知识影响端到端的使用和系统的通用性
2.Transformer编码器只有在大型语料库上预训练才会比LSTM更有效
3.指针网络和RNN的解码器不能并行,CRF是比较通用的解码器,但当实体类型比较多时,CRF的计算成本很高,更重要的是,当使用BERT或ELMo进行上下文嵌入时,CRF并不总是比softmax有效
4.具体选用怎样的架构,取决于数据(丰富性)和领域任务。对于新闻领域,已经有很多预训练的模型可使用,对于特定领域(如:医疗和社交媒体),使用特定领域的数据对通用上下文语言模型进行微调是一种有效的方法。