ner论文笔记:Better Modeling of Incomplete Annotations for Named Entity Recognition

NLPCC2020的任务三

考虑噪音标注以及不全标注信息的情况下来构造信息抽取系统。当给定实体类别,实体的一个列表,还有大量未标注语料时,我们如何设计改进算法来构建一个信息抽取系统。这个假设是非常符合工业界实际需求的,抽取的目标繁杂,而只要相关的部分实体列表和待抽取的语料,如何投入很少的人力来构建系统是一个非常以挑战且有意义的研究方向。

baseline来自论文 Better Modeling of Incomplete Annotations for Named Entity Recognition pdf

介绍

现有的三种假设,A1为随机删除一些字(可能剩下部分实体),A2为删除随机的实体,A3为把删除的实体和“O”都标记成隐变量。


(a)是完全标注,(b)是把删除的实体标注为“O”,(c)是除了确定的实体,其他的字在所有label上的可能性相等,(d)是除了确定的字,其他字在label上的值,接近真实label的值更大。


方法

D表示label集合。原始的CRF公式为:


y^(i)_p表示不完全标注的一种可能label。

如果所有可能的label概率是相同的,就等价于公式(2)

所以现在的关键是怎么估算这个q,论文里用的方法是k-fold交叉验证来定义q分布。

hard方法是:

0.把训练集随机分成两个部分,用来做k-fold
1.使用训练集0训练初始化(可以用bert参数初始化)的模型0
2.使用训练集1训练初始化模型1
3.使用训练好的模型0更新训练集1
4.使用训练好的模型1更新训练集0
5.使用更新好的训练集0和1合在一起训练初始化模型final

再重复1-6,重复这些次数每次模型都是重新初始化,只有数据在迭代变化。理想状态是,开始训练集只标注了0.5的实体,慢慢学到规律,更新自己,标注出更多的实体,用来训练。


实验

结论,效果不错(作者代码里只有hard的实现)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,635评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,628评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,971评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,986评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,006评论 6 394
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,784评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,475评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,364评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,860评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,008评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,152评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,829评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,490评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,035评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,156评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,428评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,127评论 2 356