论文阅读“Cluster Analysis with Deep Embeddings and Contrastive Learning”

Sundareswaran R, Herrera-Gerena J, Just J, et al. Cluster Analysis with Deep Embeddings and Contrastive Learning[J]. arXiv preprint arXiv:2109.12714, 2021.

摘要导读

本文提出了一种新的端到端的聚类框架，结合基于深度嵌入的聚类中心预测器，以及样本级对比学习进行深度嵌入的图像聚类。这是通过一种三管齐下的方法来实现的，该方法结合了聚类损失、实例级的对比损失和锚定损失。该方法结合了聚类损失、样本级的对比损失和锚点损失进行三方面的学习。

样本特征的对比学习和依赖语义相似性的聚类过程的集成可以加强样本在潜在空间中的表示学习
可以产生几何可分的类簇嵌入表示
对比学习的目的是学习表征，使相似的样本保持接近，而不同的样本保持遥远的距离
学习学习表示和预测类簇中心

方法浅析

模型结构图

模型包含三个联合学习的部分，分别对应样本级对比学习，聚类，以及Anchor head。此外，该模型还使用一个backbone网络用于产生低维度的映射空间，然后用于计算对比损失，聚类损失以及anchor损失。

Backbone
本文使用ResNet34作为backbone网络 $f(\cdot)$ , 并从原始输入样本中提取低维特征空间。并对输入样本 $x$ 使用数据增强模块产生 $x^1$ 、 $x^2$ 。可以产生 $h^1=f(x^1)$ , $h^2=f(x^2)$ 以及原始样本对应的低维表示 $h^o=f(x^0)$ 。其中，anchor部分的学习需要依赖原始高维空间的输入。
Instance-wise Contrastive Head
该部分使用的映射函数记为 $g_I(\cdot)$ ，将 $h^1$ 和 $h^2$ 得到 $z^1$ 和 $z^2$ ，用于构造样本间对比损失。给定大小为N的minibatch，对应2N个数据样本，从中构造正例样本 $\{x_k^1,x_k^2\}$ ，剩余的2N-2个为负例样本。对应到样本对比学习的部分，其正例为 $\{z_k^1, z_k^2 \}$ 。给定样本 $x_i^1$ 对比损失的函数可以写成如下形式：

其中

用来计算两个样本之间的相似度得分。当前batch对应的损失计算如下：
Clustering network
为了进一步最大化样本之间的一致性，获得紧凑的聚类结果。作者在这一部分引入了DEC中的聚类层用于得到聚类分配。

其中，

$q$ 为当前表示下的软聚类分配， $p$ 为对应的辅助目标分布。给定batch下的聚类损失计算如下：
Anchor network
作者指出，虽然聚类损失将语义上更紧密的聚类聚集在一起，但它只在原始图像组成的小批量样本执行参数优化。因此本文提出Anchor loss意在使得原始样本的聚类分配和增强样本的聚类分配相似度最大化。假设给定样本 $i$ 的anchor分布为 $q_i^0$ ， $q_i^1$ 和 $q_i^2$ 分别为增强之后的样本对应的anchor分布。该分布其实就是使用学生分布为核，计算样本对应于每个类簇中的概率。这里的损失计算给的也比较直接：

直观上来看，是用没有添加噪声的样本低维空间分布来约束两个增强后的样本分布。这里也可以看作是对比的思路，不包含噪声的样本anchor分布可以看作监督信息作为目标分布以约束增强的样本anchor分布。给定batch的损失计算可以写成：
Objective function

本文的优化目标为以上三项的综合：

作者指出，较高的对比学习损失的权重有助于学习有效的表征，并影响梯度向全局最优运动。相比之下，一旦梯度在狭窄的范围内，聚类和anchor权值有助于微调聚类中心，以实现良好的聚类。