Su Y, Liu F, Meng Z, et al. TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning[C]//Findings of the Association for Computational Linguistics: NAACL 2022. 2022: 2497-2507.
总述
论文从大规模语言模型的预训练过程的优化角度出发,提出了一种新颖的连续预训练的方法来鼓励BERT等模型可以针对每个token都得到具有各向同性和鉴别性的分布表示。这种训练方法是完全无监督的,并且不需要额外的数据。
模型浅析
本文所提出的模型包含两个模型,一个学生模型
实验
实验部分让人影响深刻的是关于两种训练方式的自相关性的可视化结果,其中给定输入序列,其对应的表示序列为
,self-similarity的计算方式如下: