Shi H, Wang C, Sakai T. A Simple and Effective Usage of Self-supervised Contrastive Learning for Text Clustering[C]//2021 IEEE International Conference on Systems, Man, and Cybernetics (SMC). IEEE, 2021: 315-320.
对比学习作为一种自监督学习技术,可以在少量样本甚至在没有样本的情况下实现对模型的训练。在本文中,作者基于BERT提出自监督对比学习和小样本对比学习方法。
本文贡献
- 提出了多语言回翻(back translation, BT)和随机掩码(random masking, RM)两种用于生成正例样本的方法。
- 提出了基于无监督数据增强的小样本对比学习方法。
方法浅析
- 小批次的构建
在自监督对比学习中,整个数据集都被用于BERT的微调。首先从数据集中,随机选择个文本。这里并不要求这些样本来自不同的类簇。对于选定的样本
,
和
由不同语言BT或者RM产生的两个文本。原始的文本也包含在当前的小批次中,因此,小批次的大小被扩充为
。
在小样本对比学习中,BERT被数据中包含的对包含标签的样本微调。一个小批次的大小也为
。每个文本对为来自同一个类簇的文本
,不同的样本对严格的来自
个不同的类簇。为了对数据集中的文本进行充分的对比,这里建议
。
- 对比损失
对比损失是文本对损失的均值。每个对的损失,其中
在第
个对,
是
和
的余弦相似度。
是温度参数。对比损失函数可以形式化为如下:
- 无监督数据增强(UDA)
UDA最开始在表情分析的任务中以二分类的任务目标被提出来。将UDA应用在小样本对比学习中,数据集中的每个文本被回翻为
。BERT将
以及其对应的
中的三个文本
作为输入,并将输出喂到以
为参数的UDA模型中,得到对应的分布
和
并进行对比学习:
-
损失函数
总体的损失函数如下:
好像看过?