A Survey on Deep Learning for Named Entity Recognition

摘要
本文的内容主要分为以下5个部分:
1.标记的NER语料库
2.现成的NER工具
3.根据以下3个方面对现有的paper进行分类:输入的分布式表示、上下文编码器和标记解码器
4.在新的NER问题设置和应用中最近应用的深度学习技术中最具代表性的方法
5.面临的挑战和发展方向
写综述的意义(motivations):
1.通过比较深度神经网络结构的选择,找出影响NER性能的因素以及问题和挑战
2.前人所写的综述不完整,只侧重某些方面,本文主要是从输入的分布式表示的角度来阐述NER的最新进展
NER数据集和现有的工具



传统的NER方法

  • 基于规则的方法:基于规则的NER系统依赖手工制定的规则。规则可以根据特定领域的地名录和句法词汇模式来设计。在生物医学领域,Hanisch等人利用预处理的同义词词典来识别生物医学文本中提到的蛋白质和潜在的基因。Quimbaya等人提出了一种基于字典的方法,用于电子健康记录中的NER。实验结果表明,该方法在提高召回率的同时,对精确率的提高有限。
    当词典详尽无遗时,基于规则的系统工作得很好。由于特定领域的规则和词典不完整,在这类系统中经常会出现高精度和低召回率的现象,并且无法将系统转移到其他领域。
  • 无监督学习方法:一种典型的无监督学习方法是聚类。基于聚类的NER系统基于上下文相似度从聚类中提取命名实体。关键的思想是,在大型语料库上计算的词汇资源、词法模式和统计数据可以用来推断命名实体的提及。
    Nadeau等人提出了一种无监督的地名索引建立和命名实体模糊度解决系统。该系统基于简单高效的启发式算法,将实体提取和消歧相结合。此外,Zhang和Elhadad提出了一种从生物医学文本中提取命名实体的无监督方法。他们的模型采用术语、语料库统计(如:逆文档频率和上下文向量)和浅层句法知识(如名词短语分块)来代替监督。在两个主流的生物医学数据集上的实验证明了其无监督方法的有效性和通用性。
  • 基于特征的监督学习方法:机器学习算法已经被应用于有监督的NER中,包括隐马尔科夫模型(HMM)、决策树、最大熵模型(MEM),支持向量机(SVM)和条件随机场(CRF)等

深度学习技术

  • 输入的分布式表示:1.词级表示 2.字符级表示 3.混合表示
    1.词级表示:Word2vec、Glove、fastText、SENNA、ID-CNNs
    Bio-NER 在PubMed数据库上使用跳字模型训练的
    2.字符级表示:字符级表示相对字级表示的优点:1)字符级表示对于提取子词信息(如:前缀和后缀)很有用 2)它能有效解决OOV的问题
    有两种广泛使用的提取字符级表示的体系结构:基于CNN的模型和基于RNN的模型




    3.混合表示:词汇相似度、词性标注、分块、语义依赖、多模态(嵌入视觉特征)
    其他特征:拼写特征、上下文特征、单词嵌入、地名录特征、大小写特征

  • 上下文编码结构:CNN、RNN(循环神经网络)、递归神经网络

  • 标签解码器结构:



    softmax和CRF是我们常见的两种解码器结构。RNN也可以作为解码器,隐藏层的输入除了有编码层的输入,还包括前一个已经识别出来的标签。指针网络将NER当作先识别出“块”然后再进行分类

  • 基于深度学习的NER的总结:


    架构的比较
    1.怎样引入外部知识尚未达成共识,引入之后的效果确实会有所提升,但缺点也是明显的:1)获取代价高 2)引入外部知识影响端到端的使用和系统的通用性
    2.Transformer编码器只有在大型语料库上预训练才会比LSTM更有效
    3.指针网络和RNN的解码器不能并行,CRF是比较通用的解码器,但当实体类型比较多时,CRF的计算成本很高,更重要的是,当使用BERT或ELMo进行上下文嵌入时,CRF并不总是比softmax有效
    4.具体选用怎样的架构,取决于数据(丰富性)领域任务。对于新闻领域,已经有很多预训练的模型可使用,对于特定领域(如:医疗和社交媒体),使用特定领域的数据对通用上下文语言模型进行微调是一种有效的方法。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容