论文阅读“TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning”

Su Y, Liu F, Meng Z, et al. TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning[C]//Findings of the Association for Computational Linguistics: NAACL 2022. 2022: 2497-2507.

总述

论文从大规模语言模型的预训练过程的优化角度出发，提出了一种新颖的连续预训练的方法来鼓励BERT等模型可以针对每个token都得到具有各向同性和鉴别性的分布表示。这种训练方法是完全无监督的，并且不需要额外的数据。

模型浅析

本文所提出的模型包含两个模型，一个学生模型

S

和一个教师模型

T

，它们都由相同的预训练权重进行初始化。在学习的过程中，将

T

的参数固定不动，只优化

S

的参数。给定输入序列

x=[x_1, \cdots, x_n]

，随机的mask掉

x

中的一个token，并将mask后的序列

\tilde{x}

输入

S

，用于产生上下文表示

\tilde{h}=[\tilde{h}_1,\cdots,\tilde{h}_n]

。与此同时，使用原始序列

x

输入

T

，得到对应的表示

h=[h_1,\cdots,h_n]

。提出的token级别的对比学习目标定义为：

其中如果

\tilde{x}_i

是被mask的token则

\mathbb{1}(\tilde{x}_i)=1

，否则等于0.

\tau

是温度系数参数，

\text{sim}(\cdot,\cdot)

用于计算两个表示之间的相似度。

S

的目的是将被mask掉的token学的更加接近于

T

中对应的参考表示；而远离同一序列中的其他值。除了对比学习的目标之外，预训练的过程还保留了原始的两个预训练任务MLM和NSP。因此，

S

整体的优化目标为：

通过完整的学习过程，可以继续在

S

模型上进行微调使其适用于下游任务。

实验

实验部分让人影响深刻的是关于两种训练方式的自相关性的可视化结果，其中给定输入序列 $x=[x_1, \cdots, x_n]$ ，其对应的表示序列为 $h=[h_1, \cdots, h_n]$ ，self-similarity的计算方式如下：

其中BERT表示适用原始的两种预训练任务MLM和NSP，TaCL表示适用了添加token级别的对比学习的晕训练过程。可以清楚的看出，提出的方法使得句子中的每个token更加具有各向同性和可辨别性。

论文阅读“TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning”

总述

模型浅析

实验

推荐阅读更多精彩内容