Wei F, Chen Z, Hao Z, et al. Semi-Supervised Clustering with Contrastive Learning for Discovering New Intents[J]. arXiv preprint arXiv:2201.07604, 2022.
摘要导读
现实世界中的大多数对话系统都依赖于预定义的意图和答案,因此从现有的大型语料库中发现潜在的意图对于构建这样的对话服务非常重要。考虑到大多数场景的已知意图很少,大多数意图有待发现,本文重点关注半监督文本聚类,并试图使所提出的方法从标记样本中获益,以获得更好的整体聚类性能。基于此,本文提出了深度对比半监督聚类(DCSC),它旨在以半监督的方式对文本样本进行聚类,并为操作人员提供分组意图。为了使DCSC充分利用有限的已知意图,提出了一种两阶段的DCSC训练程序,DCSC将在标记样本和未标记样本上进行训练,并获得更好的文本表示和聚类性能。实验对比说明了提出模型的有效性。
方法浅记
总体来说,本文认为要从两个方面来改善聚类:
- 利用少量的带有意图标注的样本来初始化文本的向量表示。
- 构建联合优化目标同时对向量表示和聚类结果进行调整。
以上两个角度分别对应着提出模型的两个阶段,首先在warm-up stage中,分别对带有标签的数据构造了交叉熵损失函数和监督的对比损失+对无标签数据构造传统的无监督对比学习损失。
对于带标签的数据:
此外,为了保证本阶段得到的文本表示具有代表性,还添加了在无标签数据上的传统对比损失:
在warm-up stage中,采用的是监督学习和无监督学习交替优化的方式。
在clustering stage中,
warm up阶段后,使用训练好的backone为所有实例抽取向量表示,并在向量表示上应用K-Mean++ 来获取簇中心,其形状为。其中是真实意图的数量。具体关于带有标签的类簇表示和无标签类簇表示的对齐请移步原文。这样就可以得到:
类似DEC中计算每个样本到不同类簇的归属度,文中设计了
然后利用 Sinkhorn-Knopp 算法将其转化为soft pseudo cluster assignment和,并且分别根据argmax转化为hard assignment和。并且根据soft assignments设计了面向所有类簇的“swapped”交叉熵损失:
同时作者指出在在训练中,模型会对warm-up stage中利用的带标签数据的信息(已知的意图表示)进行遗忘。因此,在clustering stage中也加入了对于label information的利用,这个过程和warm-up中的设计一致:
在clustering stage中,也采用的是监督学习和聚类学习交替优化的方式。
感觉该论文主要注重的是对于少量标签数据的利用。对于关键性问题,如真实类簇数量的估计方式也没有进行阐述。略显单薄。