论文阅读“KNN-BERT: Fine-Tuning Pre-Trained Models with KNN Classifier”

Li L, Song D, Ma R, et al. KNN-BERT: fine-tuning pre-trained models with KNN classifier[J]. arXiv preprint arXiv:2110.02523, 2021.

摘要导读

预训练模型被广泛应用于利用交叉熵损失优化的线性分类器来微调下游任务,可能会面临鲁棒性和稳定性问题。这些问题可以通过学习表示来改进,即在做出预测时去关注在同一个类簇中表示的相似性,不同类簇之间的差异性。在本文中,作者提出将KNN分类器运用到预训练模型的微调中。对于该KNN分类器,作者引入了一个有监督的动量对比学习框架来学习有监督的下游任务的聚类表示。在大规模数据集和小样本数据机上的文本分类实验和鲁棒性测试都显示了结合将KNN结合到传统的微调过程中会得到很大的提升。

模型浅析

本文中提出了KNN-BERT,利用KNN分类器时,使用以BERT为代表的预训练模型作为文本表示编码器。下面将从KNN分类器的效用和如何为KNN分类器设计文本表示的训练过程两个方面进行介绍。

  • KNN分类器
    作者将一般的线性分类器与KNN分类器相结合,并使用加权平均logits来作为最终的预测logits。假设编码后的文本表示为q,其对应的标签为Y_q,线性分类器F(\cdot);这里使用由Y_{k_i}标记的样本k_i来代表由余弦相似度选出的K个近邻样本。
    KNN对应的logits是一个投票结果,记为KNN(q)。给定权重比重\phi,最终的得分s可以由如下的形式计算:
    其中,线性分类器F(\cdot)是由传统的交叉熵损失进行驱动。KNN的驱动方式将在下面的章节中给出其对应的对比学习框架。
  • 用于KNN的对比学习
    为了在预训练模型的微调中学习适用于KNN的表示,作者引入了一个监督型对比学习框架,该框架使用标签信息来构建对比学习的正负例样本。类似于info-nce损失,带有监督信息的对比损失\mathcal{L}_{sc}定义为如下的形式:
    其中,k_{+}表示包含与给定q具有相同标签的M个样本的集合,k_{-}则表示来自不同的样本的集合。这样的损失函数可以缩小q和正例样本之间的差距,并推开q和负例样本。
    一般来说,传统的对比学习基本就考虑到这里就可以了。但本文的作者对正例集合的构造给出了一种全新的方式。
    考虑到正例样本的多样化,即:他们来自同一个类簇但通过预训练模型的编码他们会拥有不同的语义信息。因此,重要的是要确定哪些正例样本应该用于对比损失的计算,否则,学习到的表示可能不会得到紧密的类簇。因此,作者提出了两个学习表示的目标:1)使得同一个类簇中的样本尽可能紧凑;2)将那些不在同一个类簇中的样本尽可能推远。
    根据该目标,下图展示了在对比学习中需要重点关注的两类正例样本:
    一方面,足够相似的正例样本来保证紧凑的类簇;另一方面,将最不相似的正例样本拉向锚点样本q。这部分最不相似的正例样本又被称为hard-positives.
    基于这个出发点,从原始的正例集合中选取M_m个最相似的正例k_mM_l个最不相似的正例k_l,并且只针对这些选好的正例样本来进行表示的更新。作者给出的理由是:计算所有的正例样本可能会破坏与分类表示无关的语义信息;并且可能会影响分类结果,因为类簇级别的正例样本表示可能与锚点样本q有很大的不同。根据选定的正例样本,前面的\mathcal{L}_{sc}可以被重写为:
    注:在类簇学习的过程中,M_mM_l的比例也是一个非常关键的参数。
  • 动量对比优化
    显然,在对比学习训练过程中,使用大量的负例样本可以帮助更好地采样编码表示的底层连续高维空间。因此,动量对比框架MoCo被用来以基于队列更新策略来考虑大规模的负例样本。在动量对比框架中,包含两个独立的编码器:针对查询(锚点)query的编码器,针对key的编码器。query编码器由来自查询样本的梯度下降来更新,而key编码器则由一个动量的过程来进行更新:
    这里的\theta_q\theta_k是编码器,而只有查询编码器\theta_q通过反向传播通过梯度更新,并以此来驱动\theta_k的更新。
    首先将负例表示压入循环队列,只有在队列末尾的样本会通过key编码器进行编码来更新。(注:这种更新是在key编码器经过动量更新之后执行。)通过动量更新过程,对比学习过程可以考虑大量的正负例样本,因为该过程不需要计算所有正负例的梯度。
  • 双目标训练
    在训练的过程中,查询样本和其对应的正例和负例的编码都由BERT中[CLS]token的输出为对应的表示。在微调的过程中,作者将原始的交叉熵损失和对比损失结合到一起进行表示学习。从这里可以看出,用于分类的交叉熵损失是对标签信息的直接利用,而在对比学习中,则是利用标签信息进行正负例的构造,使得学习到的表示更有利于类簇的划分。

    最终的训练损失如下:
    其中:
部分实验

笔者这里主要关注了最相似正例和最不相似正例选取的数量以及其对应的比例:

可以看出的一点是,不同数量的hard-positives对性能的影响是非常重要的。这表明,引入适当数量的hard-positives有利于学习更好的表示。


总体来说,对于基于BERT微调的分类任务,作者引入KNN分类器来提供更加鲁棒的分类预测结果;在该目标的驱动下,为KNN的有效预测设计了对应的对比学习过程。在该过程中,提出了基于类别标签的正例选择方式,并且定义了两种值得关注的正例样本:与查询样本最相似的正例和与查询样本最不相似的正例。接着,引入动量对比框架以构造更多的标签级别的正负例样本对。环环相扣,最终得到了显著的性能提高。

其实笔者对基于队列的负例更新策略不太能get到。

可能类似这样,将所有的样本都push进循环队列,然后根据样本标签来判断哪些是可用负例?反正,key编码器也不进行参数的更新,一次用多少也不会增加计算量。(:

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,137评论 6 511
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,824评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,465评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,131评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,140评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,895评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,535评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,435评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,952评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,081评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,210评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,896评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,552评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,089评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,198评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,531评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,209评论 2 357

推荐阅读更多精彩内容