2021-12-20

论文阅读:《Improved Baselines with Momentum Contrastive Learning》

论文地址:https://arxiv.org/abs/2003.04297

MoCo v2

论文阅读:《An Empirical Study of Training Self-Supervised Vision Transformers》

论文地址:https://arxiv.org/abs/2104.02057

论文翻译:https://blog.51cto.com/u_13977270/3700317

MoCo v3

本文深入探索了在自监督学习框架中训练ViT的研究工作,并正式提出 MoCo v3 新自监督学习方法。尽管标准卷积网络的训练方法已经非常成熟和强大,但ViT的方法尚未建立,尤其是在自监督的情况下,训练变得更具挑战性。在这项工作中,我们将回到基础知识,并研究几个基本组件(批量大小、学习速率和优化器)对训练自监督 ViT的影响。我们观察到,不稳定性是降低准确性的一个主要问题,并且可以被明显良好的结果所掩盖。我们发现这些结果确实是部分失败,并且可以通过使训练更稳定来改善这些结果。

transformer对比

作为通常的做法,本论文在随机数据增强下为每个图像取两个剪切图像。它们由两个编码器f_{q} f_{k} 编码,输出向量qk。直观地看,q的行为就像一个“查询”,学习的目标是检索相应的“键”。这被表述为最小化一个对比损失函数(采用InfoNCE的形式)。在MocoV3中,本论文使用了自然共存于同一批中的key。本论文放弃内存队列(memory queue),发现如果批处理足够大(例如,4096),它的增益会递减。通过这种简化,对比损失可以通过很少的代码行来实现。本论文采用对称化损失:ctr(q1,k2)+ctr(q2,k1)。本论文的编码器f_{q} 由主干(backbone)(例如ResNet、ViT)、投影头(a projection head)(3层MLP)和额外的预测头(an extra prediction head)(2层MLP)组成;编码器f_{k} 具有主干(backbone)和投影头(projection head),但没有预测头(prediction head)。f_{k} f_{q} 的移动平均更新,不包括预测头。本论文使用ResNet-50(R50)测试了MoCo v3精度,发现得到的改进主要得益于额外的预测头和大批量(4096)训练。

InfoNCE
MoCo v3 伪代码

在各种情况下,不稳定性是影响自监督ViT训练的一个主要问题。不稳定的ViT训练可能不会导致灾难性的失败(例如,发散);相反,它会导致精度轻度下降(例如1%-3%)。这种退化程度可能不会太明显,除非有更稳定的对应物可供比较。据本论文所知,这种现象在卷积网络训练领域是很少见的,本论文认为这个问题及其隐藏的退化是值得注意的。为了演示不稳定性可能带来的危害,本论文考察了一个在实践中可以提高稳定性的简单技巧。基于对梯度变化的经验观察,本论文冻结了ViT中的块投影层,即本论文使用固定的随机块投影。本论文的经验表明,这一技巧缓解了几个SCE中的不稳定性问题,并不断提高精确度。

不论是 MoCo v3 还是 SimCLR, BYOL 方法,冻结 patch embedding 那层的参数都能够提升自监督 ViT 的训练稳定性。除此之外, gradient-clip 也能够帮助提升训练稳定性,其极限情况就是冻结参数。

Motivated by this, we explore freezing the patch projection layer during training. In other words,we use a fixed random patch projection layer to embed the patches, which is not learned. This can be easily done by applying a stop-gradient operation right after this layer.

MoCo v3 framework,n为batchsize


参考资料:https://zhuanlan.zhihu.com/p/362689035

                  https://zhuanlan.zhihu.com/p/368268594

                  https://blog.csdn.net/smile909/article/details/115610177

                  https://zhuanlan.zhihu.com/p/383661584

                  https://zhuanlan.zhihu.com/p/399538737

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容

  • Cancer Res | 深度学习3D病理学辅助前列腺癌风险分层 原创huacishu图灵基因2021-12-20...
    图灵基因阅读 205评论 0 0
  • 1、集群分类有哪些及各自实现的目标?高可用:保持系统的稳定,防止系统出现单点故障。负载均衡:比如高并发状态下,多个...
    kaufu阅读 232评论 0 0
  • 软件的定义: 数据+指令+文档 应用场景分类: 工具类,游戏类,媒体型,电商 软件架构分类: 单机版软件: off...
    艺术家123阅读 334评论 0 0
  • Chapter 4 Story Structure 作者总结出4种常见的故事结构:1. 开头,挑战,行动,...
    Thinker阅读 526评论 0 0
  • 第一部分 读书笔记 1.贝多芬说:音乐是哲学的最高启示。老子说:大音希声。好的音乐作品都是生命的表达。贝多芬虽然残...
    素面朝人海阅读 194评论 0 0