自监督学习

一 Exemplar-CNN(NIPS2014)

Discriminative Unsupervised Feature Learning with Convolutional Neural Networks
提出了一种使用无标签数据训练深度神经网络的方法。

  1. 创建训练数据
    (1)输入数据:一系列无标签的图片。
    (2)从不同图片的各种位置和尺度上随机采样[50,32000]个大小为32*32的patches。
    (3)定义一系列的变换(translation,scaling,rotation等)
    (4)在每一个patch上应用一系列变换得到变换后的一系列patches。
    (5)将每个patch变换出的一系列图片指定为一个类别( surrogate classes)。
    (6)采用softmaxwithloss对所有surrogate classed进行分类训练。
  2. 详细分析
    (1)Surrogate Classes为8000个时达到最优解。
    (2)每个类包含样本数为100个左右时,模型精度基本饱和。
  3. 实验结果
    提取图片特征后在相关数据集上(比如CIFAR-10)训练SVM,最终结果达到无监督的SOTA,在CIFA10等数据集上和监督训练方法仍然有差距。

二 Memory Bank(CVPR2018)

Unsupervised Feature Learning via Non-Parametric Instance Discrimination
code and pretrained models
动机:在ImageNet分类任务上,top-5分类错误率明显低于top-1分类错误率,并且softmax预测第二大的类别相比其他类别(第三、第四等)往往有更大的视觉关联度。——》显著的相似特征不是通过标签学习得到而是从图片本身学习得到。
与Exemplar-CNN的不同:Exemplar CNN在训练时候采用经典的softmaxwithloss,测试的时候在提取特征的基础上训练SVM进行分类。

  1. 非参数的Softmax分类器
    参数Softmax下,向量v被识别为第i个类别的概率:P(i|v)= \frac{e^{(w_{i}^Tv)}}{\sum_{j=1}^ne^{(w_j^Tv)} }
    其中w_j是类别j的权重向量,w_j^Tv表示v距离类别j有多远。
    问题:权重向量W作为类原型和其他特征向量进行对比,而不是让实例的特征直接进行对比。于是提出非参数的Softmax,其概率表示为:P(i|v)= \frac{e^{(v_{i}^Tv/t)}}{\sum_{j=1}^ne^{(v_j^Tv/t)} },其中t是一个控制分布集中程度的温度系数。最终的目标函数变为:L_S=-\frac{1}{n} \sum_{i=1}^nlog P(i|v_i)
    在计算P(i|v_i)的时候,所有图片的特征v_i都要被计算,为了防止在每次迭代中都进行如此巨大的计算,维持一个特征memory bank来存储所有特征。每次迭代中将本次计算的特征更新到memory bank。
    该方法不用计算和存储W_i的梯度,能更好的扩展大大数据训练上。
  2. NCE
    当类别数n非常大时,非参数的Softmax计算量非常大,所以采用NCE近似计算该Softmax。大概意思是不用所有负例,而是每个正例采样m(4096)个负例?然后各种简化,最终计算很快,但是不太稳定,又引入一个正则化项,约束当前迭代提取的样本特征与上次迭代提取的样本特征距离尽可能接近。
  3. 结论
    在自监督学习任务上达到SOTA;在半监督学习任务上(先采用该方法在大量无标签数据上训练,然后在少量带标签数据上finetune)超过其他方法;在PASCAL VOC 2007检测任务上(作为pretrain model)超过其他自监督学习方法,但是与imagenet监督学习得到的pretrain model仍有差距(76.2-65.4)。

三 MOCO(CVPR2020)

Momentum Contrast for Unsupervised Visual Representation Learning
code and pretrained models
最近采用contrasive loss在无监督视觉特征训练上取得了不错的效果,好几个工作都能看作是在建立一个动态字典,字典里面的key采用一个编码网络对图片预测得到.无监督训练训练编码器进行字典查询:一个编码的query应该和与之匹配key相似,而和不匹配的key不相似.
从上述观点出发,我们假设所建立的字典应该:(1)足够大;(2)在整个训练推进的过程中保持一致性(字典中的key应该由相同的或者相似的编码网络产生).
提出MOCO的目的: 产生大(维护一个队列)并且一致(只SGD更新query的编码网络, Momentum更新key的编码网络)的字典,帮助采用contrasive loss的无监督学习.
相比Memory bank更优的原因: memory bank中key是过去一些epoch节点的非常不同的编码器产生的,没有良好的一致性.
结论: MOMO预训练能在7个检测和分割任务上超过imagenet 监督预训练.

四 SimCLR(ICML2020)

A Simple Framework for Contrastive Learning of Visual Representations
code and pretrained models

  1. 数据增广很重要,自监督学习中数据增广比监督学习收益更多。
  2. 在representation和contrasive loss之间添加非线性变换能强化representation;
  3. 与监督学习相比,contrasive learning能从更大batch和更多训练epoch中收益更多。与监督学习一样,更深和更宽的网络都能带来好处。

五 MOCO V2

Improved Baselines with Momentum Contrastive Learning
在MOCO的基础上添加了SimCLR的两个组件:(1)MLP projection head;(2)more data
augmentation——>在不用大batchsize的前提下,结果比SimCLR更好。

六 SimCLR V2

Big Self-Supervised Models are Strong Semi-Supervised Learners

  1. 有少量标注样本和大量无标签样本的前提下,进行深度学习的一个范式是:先进行无监督预训练,再进行有监督的finetune。我们的一个关键点是在预训练和finetune阶段使用一个超大的模型,带标签的数据越少,越能从一个超大模型中获益。finetune之后,超大模型可以采用无标签数据将学到的知识蒸馏到一个小模型上,精度损失极小。提出的算法包括三步:采用SimCLRV2无监督预训练一个超大的ResNet;在少量带标签的数据上进行finetune;采用无标签数据进行知识蒸馏以将任务相关的知识迁移到小模型上。——》采用ResNet50以及10%的标签数据训练,在imagenet上达到77.5%的top1 accuracy,超过采用所有标签数据进行监督训练(76.6%)。
  2. 主要发现
    (1)对于半监督学习,标签越少,大模型的优势越大,即便有过拟合的风险;
    (2)大模型对于学习通用represntations非常重要,但是对于特定的任务不需要这么大的模型容量,因此,其任务相关的知识能通过蒸馏迁移到小模型;
    (3)更深的非线性变化不仅能提高linear evaluation的准确率,还能提高finetune的准确率(从非线性变换的中间层进行finetune)。
  3. SimCLR V2相对SimCLR主要改进
    (1)使用了更大的网络:ResNet-152 (3×+SK);
    (2)增加非线性网络的容量(3层的MLP),并且从非线性网络的中间层进行finetune,这一点对于标签极少(1%标签数据)的情况有帮助。
    (3)采用了MOCO中的memory queue,由于该工作中batchsize较大,这点提神不显著。

七 SwAV(NIPS2020)

Unsupervised Learning of Visual Features by Contrasting Cluster Assignments
code and pretrained models

八 BYOL

Bootstrap Your Own Latent A New Approach to Self-Supervised Learning
code and pretrain model

九 Simsiam(CVPR2021)

Exploring Simple Siamese Representation Learning
code and pretrain models
simple Siamese网络能在不使用以下组件的前提下学习得到有意义的特征:
(1)负例pairs;(2)大batch size;(3)momentum encoder。
——stop-gradient 扮演很重要的角色。
simsiam ~ BYOL - momentum encoder.
simsiam ~ SimCLR - negtive pairs.(需要大batch size)
simsiam ~ SwAV - online cluster.(需要大batch size)

十 (Barlow Twins)

Barlow Twins: Self-Supervised Learning via Redundancy Reduction
code and pretrained models

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容