论文阅读“Semi-Supervised Clustering with Contrastive Learning for Discovering New Intents”

Wei F, Chen Z, Hao Z, et al. Semi-Supervised Clustering with Contrastive Learning for Discovering New Intents[J]. arXiv preprint arXiv:2201.07604, 2022.

摘要导读

现实世界中的大多数对话系统都依赖于预定义的意图和答案，因此从现有的大型语料库中发现潜在的意图对于构建这样的对话服务非常重要。考虑到大多数场景的已知意图很少，大多数意图有待发现，本文重点关注半监督文本聚类，并试图使所提出的方法从标记样本中获益，以获得更好的整体聚类性能。基于此，本文提出了深度对比半监督聚类（DCSC），它旨在以半监督的方式对文本样本进行聚类，并为操作人员提供分组意图。为了使DCSC充分利用有限的已知意图，提出了一种两阶段的DCSC训练程序，DCSC将在标记样本和未标记样本上进行训练，并获得更好的文本表示和聚类性能。实验对比说明了提出模型的有效性。

方法浅记

总体来说，本文认为要从两个方面来改善聚类：

利用少量的带有意图标注的样本来初始化文本的向量表示。
构建联合优化目标同时对向量表示和聚类结果进行调整。

给定一个batch的数据

X = \{x_1, x_2, \cdots, x_N\}

，可以获取到原始数据潜在表示和增强的数据表示

Z=\{z_1, z_2, \cdots, z_N\}

Z'=\{z_{N+1}, z_{N+2}, \cdots, z_{2N}\}

以上两个角度分别对应着提出模型的两个阶段，首先在warm-up stage中，分别对带有标签的数据构造了交叉熵损失函数和监督的对比损失+对无标签数据构造传统的无监督对比学习损失。
对于带标签的数据：

交叉熵损失

监督对比损失

正例是所有来自同一个类簇的样本加和。
此外，为了保证本阶段得到的文本表示具有代表性，还添加了在无标签数据上的传统对比损失：

样本传统对比损失

z_{m(i)}

表示由

z_i

得到的进行增强的样本嵌入表示。
在warm-up stage中，采用的是监督学习和无监督学习交替优化的方式。

在clustering stage中，
warm up阶段后，使用训练好的backone为所有实例抽取向量表示，并在向量表示上应用K-Mean++ 来获取簇中心 $C'$ ，其形状为 $( G , D)$ 。其中 $G$ 是真实意图的数量。具体关于带有标签的类簇表示和无标签类簇表示的对齐请移步原文。这样就可以得到：