CONTAINER: Few-Shot Named Entity Recognition via Contrastive Learning

1. 介绍

FewShot NER对于低资源域中的实体标记至关重要。现有的方法仅从源域学习特定于类的语义特征和中间表示。这会影响对看不见的目标域的通用性,从而导致性能不佳。为此,我们提出了CONTAINER,这是一种新的对比学习技术,它优化了标记间的分布距离。CONTAINER没有优化特定于类的属性,而是优化了一个广义目标,即基于高斯分布embedding区分token类别。这有效地缓解了源自训练领域的过度匹配问题。

few-shot learning涉及从很少的标记示例中学习看不见的类。为了避免对有限的可用数据进行过度拟合,引入了元学习来重点关注如何学习。提出原型网络来学习度量空间,其中特定未知类的示例围绕单个原型聚集。虽然它主要部署在计算机视觉中,但Fritzler等人和Hou等人也使用了fewshot-NER的原型网络。另一方面,Yang和Katiyar提出了一个有监督的NER模型学习特定于类的功能并将中间表示扩展到看不见的域。此外,他们还采用了维特比解码模型的变体“StructShot”

Few shot NER比其他few shot学习任务更加困难。首先,作为序列标注任务,NER要求根据上下文以及标签内的依赖关系进行标签分配。其次,在NER中,在训练集中被标记为O的token很可能对应于测试集中的有效目标实体,这对于原型网络等元学习方法提出了挑战。(对于原型网络,这对围绕单个原型聚集实体示例的概念提出了挑战)。对于Yang和Katiyar(2020)等基于最近邻的方法,它们最初是“预训练”的,目标是源类特定的监督。因此,训练的权重将与源类紧密联系,网络将投影训练集O标记,以便它们在嵌入空间中聚集。 这将迫使embedding在测试集中删除许多与真正目标实体相关的有用特征。第三,在少数镜头设置中,没有足够的样本可以从中选择验证集。这降低了超参数调整的能力,这尤其会影响基于模板的方法,其中提示选择对于良好的性能至关重要(Cui等人,2021)。事实上,由于缺乏持续有效的验证集,许多早期的少数镜头作品都受到了质疑,他们的策略是否真的是“少数镜头”(Perez et al.,2021)

为了应对这些挑战,作者提出了一种新的方法 CONTAINER,利用对比学习的来解决fewshot NER。CONTAINER试图减少对相似实体的token embedding的距离,同时增加对不同实体的token embedding的距离(图1)。这使得CONTAINER能够更好地捕获标签依赖关系。此外,由于CONTAINER是用一个广义目标进行训练的,因此它可以有效地避免先前的方法打O的缺陷。最后,CONTAINER不需要任何特定于数据集的prompt或超参数调整。

与传统的对比学习不同优化point embedding优化样本距离,container优化了分布散度,有效地建模高斯embedding。高斯embedding显式地建模实体类分布,这不仅促进了广义特征表示,而且有助于少样本目标域自适应

因此高斯嵌入显式地建模实体类分布,这不仅促进了广义特征表示,而且有助于少样本目标域的自适应。之前在高斯嵌入方面的工作也表明,映射到密度可以捕获表示的不确定性(Vilnis和McCallum,2014),并表示自然不对称性(Qian等人,2021),同时显示出更好的泛化,用更少的数据来实现最佳绩效(Bojchevski和Günnemann,2017)。受高斯嵌入的这些独特特性的启发,在这项工作中,我们利用高斯embedding进行对比学习for few-shot。评估期间的最近邻分类方案显示,平均而言,CONTAINER在广泛的测试中显著优于之前的SOTA方法,其F1绝对分数高达13%。特别是,我们根据Yang和Katiyar(2020)在各种数据集(CoNLL'03,OntoNotes 5.0,WNUT'17,I2B2),在域内和域外实验中广泛测试了我们的模型。我们还在提出的一个大型数据集Few-Shot NERD(Ding等人,2021)中测试了我们的模型,其中CONTAINER优于所有其他SOTA方法,在排行榜上设定了一个新的基准结果

综上所述,我们的贡献如下:

(1)CONTAINER利用对比学习来推断其高斯embedding的分布距离。

(2)CONTAINER representation更适合于适应看不见的新类,即使支持样本数量较少

2 Task Formulation

2.1 few-shot设置

训练集和测试集tag没有交集,N-wayK-shot表示测试集tag数量为N,每一个tag有K个examples

2.2 标记方案

遵循IO标记方案,其中I-type表示所有标记都在一个实体内,O-type表示所有其他标记

2.3 评估方案

在此,通过计算多个测试集的micro-F1分数来评估模型。每集由一个K-shot support set和一个K-shot unlabeled (test)set组成做出预测。从原始开发集中抽取多个支持集,用它们进行预测。

3. 方法

CONTAINER利用对比学习来优化不同标记实体表示之间的分布差异。没有关注特定标签的属性,而是显式地训练模型来区分不同类别的标记

此外,高斯embedding代替传统的point representation可以有效地让CONTAINER对实体类分布进行建模,从而激发标记的广义表示。

最后,它允许我们仔细微调我们的模型,即使使用少量样本,也不会过度拟合,这对于域自适应来说是必不可少的。

如图2所示,我们首先在源域中训练模型。接下来,我们使用几个示例支持集对模型表示进行微调,以使其适应目标域。算法1说明了容器的训练和微调。最后,我们使用实例级最近邻分类器在测试集中进行推理

图2:我们提出的基于高斯嵌入对比学习的容器框架的说明:(i)使用训练NER标签PER和DATE在源域中进行训练,(ii)对目标进行微调域使用目标NER标签ORG和LOC,(iii)通过最近邻支持集标签为测试样本分配标签

3.1 模型

用BERT作为PLM编码器。因此,给定n个token序列[x1,x2,…,xn],我们将PLM的最终隐藏层输出作为中间表征

然后,这些中间表示通过简单的投影层传递,以生成embedding,我们假设token embedding遵循高斯分布。我们使用投影网络fµ和f∑来生成高斯分布参数:

mu和sigma表示平均值和对角协方差(仅含非零元素分别沿矩阵的对角线)的高斯嵌入

3.2 Training in Source Domain

为了计算对比损失,我们考虑了样本批次中所有有效token对之间的KL散度,两个token如果有相同的label,那么就被视为positive样本

KL散度的两个方向都是计算的,因为它是不对称的。

我们首先在资源丰富的源域中,Xtr的训练我们的模型。在每个训练步骤中,我们随机抽取一批序列X∈ 来自训练集中的Xtr,每个批次大小为b,我们通过将相应的token序列通过模型获得其高斯嵌入N(µi,∑i)。

我们在批次中找到样本p的正样本Xp,然后计算Xp相对于批次中所有其他有效token的高斯embedding损失

通过这种方式,我们计算批次中所有token对的分布散度,X表示所有token对,分母项表示正集,分子项目表示在token对中,除了自己对以外的对。

3.3 Finetuning to Target Domain using Support Set

在源域中进行训练后,我们使用少量目标域支持样本,按照与训练阶段类似的步骤对模型进行微调。由于我们只有少量样本可供微调,所以我们将其化为single batch。当目标类有多个few-shot sample(例如,5-shot)可用时,模型可以通过优化高斯embedding的KL散度有效地适应新域

相比之下,对于1-shot的情况,模型适应目标类分布的难度很大。如果模型没有关于目标类的先验知识,单个示例可能不足以推断目标类分布的方差。因此,对于one-shot场景,我们优化了

嵌入分布均值之间的平方欧氏距离。当模型对所涉及的目标类别有直接/间接的先验知识时,我们仍然会优化分布的KL散度,类似于5-shot场景。

我们在表7中证明,使用平方欧几里德距离进行优化可以使我们在one-shot场景中获得更好的性能。

然而,在所有情况下,在5-shot支持集下,优化高斯embedding之间的KL散度可以得到最好的结果。

3.3.1 Early Stopping

使用较小的支持集进行微调,则会有过度拟合的风险,并且由于目标域中的数据不足,无法访问保留的验证集,因此我们无法跟踪需要停止微调的饱和点。为了缓解这种情况,我们计算出对比损失,并将其作为我们的早期停止标准,previous_score=1e+6

3.4 Instance Level Nearest Neighbor Inference

在分别使用训练数据和支持数据对网络进行训练和微调后,提取预训练的语言模型编码器PLM进行推理。与SimCLR(Chen et al.,2020)类似,我们发现投影层之前的 representations实际上包含比最终输出表示更多的信息,这有助于提高性能,因此fµ和f∑投影头不用于推理。因此,我们计算PLM中测试数据的表示,并找到用于推理的最近邻支持集表示

对于每一个support token求出的表征h(j,sup) from support set,对于每一个test token求出的表征h(j,test) from test set,我们为在最近邻PLM的表征空间里为x(i,test)分配与support token相同的label

3.4.1 Viterbi Decoding

之前的大多数工作都注意到使用CRF可以消除错误预测以提高性能,从而提高了性能。因此我们还在推理阶段使用维特比解码,并使用StructShot中的抽象转移分布。对于转移概率,通过计算三个抽象标记O、I和I-other在训练集中的出现次数来估计它们之间的转移。然后,对于目标域标记集,将这些转移概率均匀分布到相应的目标分布中. 对于发射概率,通过近邻推断计算。将领域迁移结果(表3)于其它任务(表2,4,5)比较,作者发现,如果测试数据中没有涉及明显的领域迁移,对比学习允许CONTaiNER自动抽取标签依赖,避免了额外维特比解码阶段的要求

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容