论文阅读“A Simple and Effective Usage of Self-supervised Contrastive Learning for Text Clustering”

Shi H, Wang C, Sakai T. A Simple and Effective Usage of Self-supervised Contrastive Learning for Text Clustering[C]//2021 IEEE International Conference on Systems, Man, and Cybernetics (SMC). IEEE, 2021: 315-320.

对比学习作为一种自监督学习技术，可以在少量样本甚至在没有样本的情况下实现对模型的训练。在本文中，作者基于BERT提出自监督对比学习和小样本对比学习方法。

本文贡献

提出了多语言回翻（back translation, BT）和随机掩码（random masking, RM）两种用于生成正例样本的方法。
提出了基于无监督数据增强的小样本对比学习方法。

方法浅析

该图展示了小样本对比学习和自监督学习的框架。对于每个小批次，主要包含了三个步骤，（1）选择或产生

m

对文本，对内文本互为正例样本而对间被作为负例样本；（2）将去掉停用词的文本对作为BERT的输入，然后将文本转化为潜在表示；（3）针对潜在表示设计对比损失，利用其对BERT进行微调。在学习过程完成后，将所有文本输入到微调过的BERT中得到对应的样本表示

u_i(i=1,\cdots,N)

用于聚类。

小批次的构建
在自监督对比学习中，整个数据集都被用于BERT的微调。首先从数据集中，随机选择 $m$ 个文本。这里并不要求这些样本来自不同的类簇。对于选定的样本 $x_i, i=1,\cdots,m$ ， $x_i'$ 和 $x_i''$ 由不同语言BT或者RM产生的两个文本。原始的文本也包含在当前的小批次中，因此，小批次的大小被扩充为 $2m$ 。
在小样本对比学习中，BERT被数据中包含的 $m$ 对包含标签的样本微调。一个小批次的大小也为 $2m$ 。每个文本对为来自同一个类簇的文本 $x_{c_i, i}, x_{c_i, j}$ ,不同的样本对严格的来自 $n$ 个不同的类簇。为了对数据集中的文本进行充分的对比，这里建议 $m \geq n$ 。
对比损失
对比损失是文本对损失的均值。每个对的损失 $l(i, j)$ ，其中 $i=2p-1, j=2p$ 在第 $p,(p=1,\cdots, m)$ 个对， $s_{i,j}$ 是 $v_i$ 和 $v_j$ 的余弦相似度。 $\tau$ 是温度参数。对比损失函数可以形式化为如下：
无监督数据增强（UDA）
UDA最开始在表情分析的任务中以二分类的任务目标被提出来。将UDA应用在小样本对比学习中，数据集 $D$ 中的每个文本被回翻为 $D'$ 。BERT将 $x_i$ 以及其对应的 $D'$ 中的三个文本 $x'_{i, q}(q=1,2,3)$ 作为输入，并将输出喂到以 $\theta$ 为参数的UDA模型中，得到对应的分布 $p_{\theta}(y|x_i)$ 和 $p_{\theta}(y|x'_{i,q})$ 并进行对比学习：
损失函数

总体的损失函数如下：

好像看过？

论文阅读“A Simple and Effective Usage of Self-supervised Contrastive Learning for Text Clustering”

本文贡献

方法浅析

推荐阅读更多精彩内容