论文阅读“TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning”

Su Y, Liu F, Meng Z, et al. TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning[C]//Findings of the Association for Computational Linguistics: NAACL 2022. 2022: 2497-2507.

总述

论文从大规模语言模型的预训练过程的优化角度出发,提出了一种新颖的连续预训练的方法来鼓励BERT等模型可以针对每个token都得到具有各向同性和鉴别性的分布表示。这种训练方法是完全无监督的,并且不需要额外的数据。

模型浅析


本文所提出的模型包含两个模型,一个学生模型S和一个教师模型T,它们都由相同的预训练权重进行初始化。在学习的过程中,将T的参数固定不动,只优化S的参数。给定输入序列x=[x_1, \cdots, x_n],随机的mask掉x中的一个token,并将mask后的序列\tilde{x}输入S,用于产生上下文表示\tilde{h}=[\tilde{h}_1,\cdots,\tilde{h}_n]。与此同时,使用原始序列x输入T,得到对应的表示h=[h_1,\cdots,h_n]。提出的token级别的对比学习目标定义为:
其中如果\tilde{x}_i是被mask的token则\mathbb{1}(\tilde{x}_i)=1,否则等于0. \tau是温度系数参数,\text{sim}(\cdot,\cdot)用于计算两个表示之间的相似度。S的目的是将被mask掉的token学的更加接近于T中对应的参考表示;而远离同一序列中的其他值。除了对比学习的目标之外,预训练的过程还保留了原始的两个预训练任务MLM和NSP。因此,S整体的优化目标为:
通过完整的学习过程,可以继续在S模型上进行微调使其适用于下游任务。

实验

实验部分让人影响深刻的是关于两种训练方式的自相关性的可视化结果,其中给定输入序列x=[x_1, \cdots, x_n],其对应的表示序列为h=[h_1, \cdots, h_n],self-similarity的计算方式如下:


其中BERT表示适用原始的两种预训练任务MLM和NSP,TaCL表示适用了添加token级别的对比学习的晕训练过程。可以清楚的看出,提出的方法使得句子中的每个token更加具有各向同性和可辨别性。


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容