命名实体泛读系列(一)—— Named Entity Recognition using Positive-Unlabeled Learning论文笔记

一、写在前面的话

命名实体识别(NER)是许多自然语言处理任务的基本组成部分。该领域现有的监督方法往往需要大量的标记数据,而这通常非常昂贵且耗时。在这篇论文中,作者探索了仅使用未标记数据和收集的与数据集相关的实体字典的半监督的命名实体方法。文中将任务定义为一个正未标记(PU, Positive-Unlabeled)学习问题(简单理解就是存在一定的正标签但数据集未进行标记的任务),并据此提出了一种新的PU学习算法来执行该任务。该论文证明了该算法可以像有完全标记的数据一样,无约束地、一致地估计任务损失。该方法的一个关键创新在于它不要求词典标记句子中的每个实体,甚至不要求词典覆盖实体,大大降低了对词典质量的要求,是非常有意义的命名实体算法。


二、论文模型

该模型首先使用最大匹配算法进行数据标注(这里直接对词进行正负类的标定,而不是BIO等形式),再通过拼接字符级别词嵌入、词级别词嵌入和人工设计的特征,构建BiLSTM模型并对文本的词进行预测,最后使用AdaSampling的方法进行词典扩充。

1. 数据标注

由于词典并能包含一句话中的所有实体,故作者使用二分类对每个词进行标记,通过最大匹配算法使得实体单词被标记为正类,非实体单词被标记为负类。

2. 模型构建

作者主要使用三种词向量:

  • 字符级别词向量

  • 正常的词向量,使用的是GloVe的词嵌入方法

  • 人工特征向量(这是一个0|1向量,即满足任一条件即置为1):allCaps(是否全部为大写)、upperInitial(首字母大写)、lowercase(是否为小写)、mixedCaps和noinfo。

将三种词向量拼接输入BiLSTM中:

最后经过sigmoid函数进行分类:

3. 损失函数

其中

作者在文中对PU学习这一特殊任务做了推导,推出了无偏损失函数,具体过程可以参考作者github给出的更详细的推导补充

4. 标签推理和词典扩充

经过训练的PU分类器可以用来进行标签预测。因为每个实体类型有着不同的分类器,所以同一个实体单词可能被分类为不同的正类。所以作者选取概率最大的正类作为该单词的类别,同时其他类型分类器的预测归零。解决正类冲突之后,作者使用最大匹配的原则对连续实体单词进行分类,得到最终的实体单词标签预测,并且使用AdaSampling对词典进行扩充。此方法为不断迭代PU学习算法,并把每一次标注出的结果加入到字典中,直到字典的大小不在变化。


三、实验结果

作者选取了几个基线模型,分别是直接用词典预测(Matching),使用完全标注数据,BIOES和神经网络模型进行预测(BiLSTM),使用交叉熵作为损失函数的PU模型(uPU),没有使用非负约束并且实行字典扩大的PU模型(buPU),仅仅没使用字典扩大的PU模型(bnPU),和完整PU模型(adaPU)。除此之外还对比了斯坦福NER的基于最大熵的马尔可夫模型方法(MEMM),斯坦福条件随机场方法(CRF)还有基于神经网络的模型(BiLSTM+CRF)。具体结果如下:

可以看出,作者在文中提出的损失函数对PU学习有相当大的帮助,同时也证明论文提出的算法能在有限的词典的基础上做到相当不错的结果,哪怕与监督算法相比也并没有逊色太多。

该论文算法相当具有实践价值,在实际做命名实体任务时,我们经常会遇到有一定的词典,但是没有专门标注的数据集这一棘手的问题。该论文的算法为我们在遇到这种问题时提供了一个有效的方案。


参考

  1. https://blog.csdn.net/a609640147/article/details/91048682
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354

推荐阅读更多精彩内容