Yang C, An Z, Cai L, et al. Mutual contrastive learning for visual representation learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(3): 3045-3053.
摘要翻译
本文提出了一种协同学习方法--互对比学习(Mutual Contrastive Learning,MCL),用于视觉表示学习。其核心思想是在一系列类似的网络之间进行对比分布的相互作用和转化。【交互对比学习(ICL)是MCL中的重要组件。与普通的对比学习相比,ICL可以聚合跨网络嵌入信息,并最大化两个网络间互信息的下界。这使得每个网络能够从其他网络那里学习额外的对比知识,从而为视觉识别任务提供更好的样本表征。并且作者特别注明,MCL在概念上很简单,但是却显示出了强大的实验效果。】值得注意的一点是,该框架是一个通用型框架,可以应用于监督和自监督的表示学习。
模型浅析
互对比学习(Mutual Contrastive Learning)概念图
协同学习架构
- 符号说明
一般来说,一个分类网络一般划分为特征抽取器和一个线性全连接层。是由映射得来的logit向量。此外,作者为该分类网络额外增加了一个额外的映射头将特征嵌入映射为潜在嵌入。即:,然后将其应用于对比学习中。 - 训练阶段
这里以监督学习任务为例,对应的MCL的训练框架如下所示: - 测试阶段
在分类的测试阶段,摒弃了所有的映射模块,只保留一个网络用来推断。用于推断的网络的结构与原始网络相同。也就是说,不会引入额外的推理成本。
互对比学习
- 普通对比学习(Vanilla Contrastive Learning)
给定输入样本为锚点样本,可以得到1个对应的正例样本以及个负例样本。对于监督学习,正例样本通常和锚点样本来自同一个类别,而负例样本则来自不同的类别。对于自监督学习,正例样本和锚点样本通常是同一个样本的两种增强。为方便表示,本文将锚点的嵌入记录为,正例嵌入为,个负例嵌入为。表示嵌入表示产生自。
根据嵌入表示,可以得到对应的对比概率分布,其中是常温度系数。用归一化概率分布来测量相对样本方面的相似性。概率值越大表示锚点和对比嵌入之间高度相似。这里使用cross-entropy来使得正例对逼近,负例对推远: - 交互式对比学习(Interactive Contrastive Learning)
然而,普通的对比学习并不能为协作学习建模跨网络关系。为了充分利用不同网络之间的信息交互,本文提出了一种新的交互式对比学习(ICL)来模拟跨网络交互,以学习更好的特征表示。因此,本文以两种平行网络和对ICL进行了形式化;其中,并且可以以这种形式扩展到多个网络的情况下。
为了构建ICL,首先将固定下来对进行枚举。从中获取到锚点嵌入,然后可以从中得到正例嵌入以及负例嵌入。关于样本的对应生成可以看模型概念图中的示例。
相应的从到的对比概率分布写成如下的形式:,类似的,其对应的对比损失函数有如下形式:
软对比学习与在线相互模仿 (Soft Contrastive Learning with Online Mutual Mimicry)
Deep Mutual Learning 的成功说明了每个网络都可以通过 online peer-teaching 的方式相互学习其他网络的软类概率分布来更好地一般化。这是因为每个网络的类后验输出可以被看作其他网络输出软分配的标签信息。即:和也可以被视为类别的后验。因此,对这些对比分布进行相互模拟,理论上可以获取到更好的表示。
因此,在VCL和ICL的过程中都使用到了对比分布的对齐操作,具体如下:
- Soft Vanilla Contrastive Learning
对于可以产生,其损失为: - Soft Interactive Contrastive Learning
给定两个网络和,可以得出两个交互对比分布和。扩展到,其损失为:
总体损失
为了充分利用协同学习的优点,包含个网络的总体损失为:
将MCL应用到监督学习中
在传统的监督学习的分类任务中,会使用分类层输出的logit向量和gold标签进行交叉熵损失。给定输入,个分类网络的输出,每个网络可以应用真实标签进行预测的概率分布和真实标签之间的交叉熵损失,其损失表示为:
将MCL应用到自监督学习中
MCL在自监督中应用主要区别在于:1. 正例的构造:使用数据增强的方式;2. 不能使用带有真实标签的交叉熵损失。结合经典的MoCo算法,作者这里给出了一个MCL和MoCo框架的结合图()。
实验结果可视化对比
本文提出了一种简单而有效的相互对比学习方法,从对比表示学习的角度来协同训练一组模型。实验结果表明,它可以广泛应用于监督学习和自监督学习。感觉就是把多视图那一套又返回来用在了单视图图像的表示学习中。但是,因为多视图数据本身的特性,很少考虑到对齐分布对比的损失,但这也不失为考虑视图分布对齐的一种方式。