Li J, Savarese S, Hoi S C H. Masked Unsupervised Self-training for Zero-shot Image Classification[J]. arXiv preprint arXiv:2206.02967, 2022.
摘要导读
有监督学习由于较为昂贵的标注费用会限制模型的可扩展性。虽然自监督表示学习已经取得了令人印象深刻的进展,但它仍然需要对标记数据进行第二阶段的微调。本文的目标是利用丰富的未标记数据来提高预训练的zero-shot分类器在下游任务上的性能。为此,提出了 Masked Unsupervised Self-Training (MUST),利用两种不同的并且互补的源来进行监督。该模型通过联合优化三个目标以学习类簇级别的全局特征,像素级别的局部特征并对二者进行强制化正则。
笔者比较感兴趣的是这些丰富的无标签数据在整个模型中的使用,因此这里主要是对模型中各模块记录。如果是为了了解该模型的技术背景,请移步原文(https://arxiv.org/pdf/2206.02967.pdf)
模型浅析
该模型使用CLIP为backbone,通过对图像编码器和文本编码器进行预训练,使成对的图像和文本在共享的嵌入空间中具有更高的相似性。(该目的与多视图数据中获得一致性的特征表示是类似的)为了执行zero-shot分类,CLIP使用自然语言提示的集成将一组类名转换为文本嵌入。在推理过程中,它使用图像嵌入和所有文本嵌入之间的点积来生成该图像的预测逻辑。文章将CLIP的非参数文本嵌入转换为线性分类器的权值,并直接将线性分类器与图像编码器一起进行无监督自适应。其流程为:首先将给定图片划分为规则且不重叠的补丁。与PLMs一致,使用一个附加的[CLS]标记来提取全局信息,分类器可以使用它进行预测。然后,通过用一个可学习的[MSK]标记随机替换补丁的嵌入来掩码图像补丁。[CLS]和[MSK]对应的输出嵌入表示用于联合优化三个目标:(1)全局的自训练(2)局部掩码图像建模(3)全局-局部的特征对齐。根据这三个目标,分别对应了三个不同的模块:
-
Self-training with an EMA Teacher
自训练目标应用于分类器的输出。给定一个batch的无标记图片,通过将图片的弱增强版本传递给teacher model以计算每个图片的伪标签。其中教师模型由EMA(exponentially moving average)进行参数更新。具体来说,EMA teacher model ∆的参数初始化为。对应于的每次更新,∆可以由下式进行更新:
为了避免伪标签的平凡解,即会对某些类别有偏向。自训练过程还引入了一个正则项: -
Masked Image Modeling
为了缓解自训练中对噪声伪标签的过度依赖,模型还引入了从原始图像中获得的另一种监督来源。MIM的目标是通过使用上下文补丁来预测被masked的缺失信息,以学习局部的图像表示。具体来讲:给定第个[MSK]的嵌入表示,首先将其通过一个线性解码器获取预测的RGB值,表示每个被划分的补丁中所包含的RGB像素的个数。MIM loss由预测的和真实的之间的l1-loss表示: -
Global-local Feature Alignment
为了在两种监督信息之间建立连接,使得由MIM学习的局部[MSK]特征可以提升全局[CLS]特征更好的分类。设表示[CLS]标记的输出嵌入,表示其在映射网络后的归一化嵌入。是一个后接l2正则的线性层,分类器随后用生成用于自训练的预测。同样也对[MSK]通过映射将两种token投影到相同的特征空间中。该模块的 global-local feature alignment loss定义为如下:
在训练中,整个框架联合优化三个目标函数:
可能是由于模型较大的缘故,作者并未对$\lambda$进行最优权重的分析。。而是给了一张对应于每个数据集的表进行参数说明
总体来说在预训练图像模型上的自监督学习的三个目标函数都没有太大的创新,但是整个框架的桥接,尤其是关于伪标签的构造使用了EMA teacher,以及两个模块之间的交叉熵的构造很有趣。