2021-03-01 ner最新进展

2021.3.1

1.ACL2020 | TriggerNER:高效命名实体识别框架

摘要:本文由南加州大学和亚马逊联合发布,文章题目为《TriggerNER: Learning with Entity Triggers as Explanations for Named Entity Recognition 》,已经被ACL2020录用。文章针对命名实体识别中存在的需要大量耗时耗力的人工标注工作现状提出了方法TriggerNER,利用一种能够帮助人们找到实体的触发器entity trigger,通过Trigger Matching Network学习到相关触发器的信息以及触发器跟句子之间的匹配程度,从而更有利于标注。在实验上发现,使用20%的带有触发器的数据训练模型,其能力能够媲美使用70%原始数据训练的模型。

主要贡献:

  1. 提出“entity trigger”的概念,这是命名实体识别问题的一种解释性注释的新颖形式。在两个流行的数据集上众包并公开发布了14k带注释的实体触发器:CoNLL03(通用域),BC5CDR(生物医学域)。2. 提出一种新颖的学习框架,称为“Trigger Matching Network”,该框架对实体触发器进行编码,并柔化未标记的句子,以提高基础实体标记器的效率。3. TMN使用原始CoNLL03数据集中20%的触发器注释语句达到了使用70%的注释语句训练传统模型的性能。
image

概念实体触发器,entity trigger,指的是一组能够在一个完整句子帮助解释实体识别的词语。例如图2,“have…lunch at”跟“where the food”是跟把实体Rumble Fist识别为Restaurant相关联的两个实体触发器。(我的通俗理解应该是动词,谓词,比如轨道交通规范中的采用了,应设置...)

实验对比


成本效益研究

BLSTM-CRF与TMN的劳动效率研究

2.哈工大 | 在NER数据标注中验证标签一致性

贡献:提出了一个实证方法来探讨标签一致性与NER模型性能之间的关系。它可以用于验证多组NER数据注释中的标签一致性(或捕获不一致)。

数据标注在确保指定实体识别(NER)项目得到正确信息的训练方面起着至关重要的作用。由于标注的复杂性,生成最准确的标签是一项挑战。数据标注的多个子集(如训练集和测试集,或多个训练子集)之间的标签不一致是标签错误的一个指标。在本研究中,我们提出了一个实证方法来探讨标签一致性与NER模型性能之间的关系。它可以用于验证多组NER数据注释中的标签一致性(或捕获不一致)。在实验中,我们的方法识别了SCIERC和CoNLL03数据集测试数据的标签不一致(标签错误分别为26.7%和5.4%)。它验证了两个数据集的修正版本的一致性。

3.Tencent Lab | 命名实体识别中未标注实体问题的实证分析

【论文标题】 Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition
【作者团队】Yangming Li,Lemao Liu,Shuming Shi
【发表时间】2020/12/11
【论文链接】https://arxiv.org/abs/2012.05426
【推荐理由】针对句子实体可能没有被完全标注影响模型性能的情况,提出了一种能够消除未标记实体带来的误导的通用方法。
【摘要】在许多场景中,命名实体识别(NER)模型存在未标记实体问题,即句子的实体可能没有被完全标注。通过对综合数据集的实证研究,我们发现了导致性能下降的两个原因。一种是减少带标注的实体,另一种是将未标记的实体视为负面实例。第一个原因的影响小于第二个原因,可以通过采用训练前的语言模型加以缓解。二是严重误导训练模式,严重影响训练效果。基于上述观察,我们提出了一种能够消除未标记实体带来的误导的通用方法。其核心思想是使用负抽样来保持训练未标记实体的概率在一个非常低的水平上。在综合数据集和真实数据集上的实验表明,该模型对未标记实体问题具有较强的鲁棒性,且优于先验基线。在注释良好的数据集上,我们的模型与最先进的方法是SOTA的。

4.ACL 2020 基于机器阅读理解框架的命名实体识别方法

【论文标题】 A Unified MRC Framework for Named Entity Recognition
【作者团队】Xiaoya Li, Jingrong Feng, Jiwei Li
【发表时间】2020/12/11
【论文链接】https://arxiv.org/pdf/1910.11476.pdf
【摘要】本文提出使用基于机器阅读理解(Machine Reading Comprehension, MRC) 的框架代替序列标注模型(sequence labeling) 统一处理嵌套与非嵌套命名实体识别问题。该方法解决了序列标注模型无法处理嵌套命名实体识别的缺陷,在8个中英数据集(OntoNotes4.0/5.0、ACE2004/2005、GENIA、KBP17、MSRA、CoNLL)上取得接近或超过当前最佳效果的表现,尤其是在嵌套任务上大幅超越之前最优结果。
【代码链接】https://github.com/ShannonAI/
mrc-for-flat-nested-ner.
5.[基于专家系统和IM的建筑设计合规性自动检查系统研究]
我的理解:
规则模块:人为指定的实体类别和实体
BIM信息模块:是BIM构建的信息实体类别与实体
然后输入BIM模型具体实体(入户门)的宽度,可以查找出规则中的这条规范,然后通过匹配判断符合还是不符合,输出审查结果。

image.png

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容