论文粗读“Masked Unsupervised Self-training for Zero-shot Image Classification”

Li J, Savarese S, Hoi S C H. Masked Unsupervised Self-training for Zero-shot Image Classification[J]. arXiv preprint arXiv:2206.02967, 2022.

摘要导读

有监督学习由于较为昂贵的标注费用会限制模型的可扩展性。虽然自监督表示学习已经取得了令人印象深刻的进展,但它仍然需要对标记数据进行第二阶段的微调。本文的目标是利用丰富的未标记数据来提高预训练的zero-shot分类器在下游任务上的性能。为此,提出了 Masked Unsupervised Self-Training (MUST),利用两种不同的并且互补的源来进行监督。该模型通过联合优化三个目标以学习类簇级别的全局特征,像素级别的局部特征并对二者进行强制化正则。

笔者比较感兴趣的是这些丰富的无标签数据在整个模型中的使用,因此这里主要是对模型中各模块记录。如果是为了了解该模型的技术背景,请移步原文(https://arxiv.org/pdf/2206.02967.pdf)

模型浅析

该模型使用CLIP为backbone,通过对图像编码器和文本编码器进行预训练,使成对的图像和文本在共享的嵌入空间中具有更高的相似性。(该目的与多视图数据中获得一致性的特征表示是类似的)为了执行zero-shot分类,CLIP使用自然语言提示的集成将一组类名转换为文本嵌入。在推理过程中,它使用图像嵌入和所有文本嵌入之间的点积来生成该图像的预测逻辑。文章将CLIP的非参数文本嵌入转换为线性分类器的权值,并直接将线性分类器与图像编码器一起进行无监督自适应。

本文提出的模型的完整框架如下所示:

其流程为:首先将给定图片划分为规则且不重叠的补丁。与PLMs一致,使用一个附加的[CLS]标记来提取全局信息,分类器可以使用它进行预测。然后,通过用一个可学习的[MSK]标记随机替换补丁的嵌入来掩码图像补丁。[CLS]和[MSK]对应的输出嵌入表示用于联合优化三个目标:(1)全局的自训练(2)局部掩码图像建模(3)全局-局部的特征对齐。根据这三个目标,分别对应了三个不同的模块:

  • Self-training with an EMA Teacher
    自训练目标应用于分类器的输出。给定一个batch的无标记图片B,通过将图片的弱增强版本传递给teacher model以计算每个图片的伪标签。其中教师模型由EMA(exponentially moving average)进行参数更新。具体来说,EMA teacher model ∆的参数初始化为\theta。对应于\theta的每次更新,∆可以由下式进行更新:

    对于EMA teacher model的输出,将q_b记录为弱增强图片的softmax的预测,对于类别表示而言,q_b可以看做该图像的软分配表示。这里为了实现自训练,对于同一图像的强增强版本,通过对模型的预测p_b强制执行交叉熵损失:
    当然,这里的自训练涉及的样本并不是全部,而是对弱增强样本进行了过滤,即:只选用了伪标签中最大得分大于给定阈值的图像进行自训练。并且将q_b软标签分配转换为one-hot的标签表示。
    为了避免伪标签的平凡解,即会对某些类别有偏向。自训练过程还引入了一个正则项:
    其中,K为类的总数,\overline{p} 为模型跨批处理的平均预测。对于K>B的情况下,我们使用移动平均值而不是批平均值来计算\overline {p}

  • Masked Image Modeling
    为了缓解自训练中对噪声伪标签的过度依赖,模型还引入了从原始图像中获得的另一种监督来源。MIM的目标是通过使用上下文补丁来预测被masked的缺失信息,以学习局部的图像表示。具体来讲:给定第m个[MSK]的嵌入表示z_b^m,首先将其通过一个线性解码器获取预测的RGB值y_b^m \in R^NN表示每个被划分的补丁中所包含的RGB像素的个数。MIM loss由预测的y_b^m和真实的x_b^m之间的l1-loss表示:

    其中,M表示每幅图像被masked补丁的数量。

  • Global-local Feature Alignment
    为了在两种监督信息之间建立连接,使得由MIM学习的局部[MSK]特征可以提升全局[CLS]特征更好的分类。设z_b^c表示[CLS]标记的输出嵌入,v_b^c=h(z_b^c)表示其在映射网络h后的归一化嵌入。h是一个后接l2正则的线性层,分类器随后用v_b^c生成用于自训练的预测p_b。同样也对[MSK]通过h映射将两种token投影到相同的特征空间中v_b^m=h(z_b^m)。该模块的 global-local feature alignment loss定义为如下:

在训练中,整个框架联合优化三个目标函数:

简单起见,该目标函数仅为L_{align}设置了一个可调节的权重。
可能是由于模型较大的缘故,作者并未对$\lambda$进行最优权重的分析。。而是给了一张对应于每个数据集的表进行参数说明


总体来说在预训练图像模型上的自监督学习的三个目标函数都没有太大的创新,但是整个框架的桥接,尤其是关于伪标签的构造使用了EMA teacher,以及两个模块之间的交叉熵的构造很有趣。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容