2021-12-15

论文阅读：《A Simple Framework for Contrastive Learning of Visual Representations》

论文地址：https://arxiv.org/abs/2002.05709

SimCLR v1

论文阅读：《Big Self-Supervised Models areStrong Semi-Supervised Learners》

论文地址：https://arxiv.org/abs/2006.10029

论文翻译：https://zhuanlan.zhihu.com/p/213737892

SimCLR v2

论文代码：https://github.com/google-research/simclr

代码主要包含一下几个部分：数据增强：simclr/tf2/data.py 网络结构：simclr/tf2/resnet.py Loss函数：simclr/tf2/objective.py 网络模型：simclr/tf2/model.py

SimCLR v1

作者们构建了一种用于视觉表示的对比学习简单框架 SimCLR，它不仅优于此前的所有工作，也优于最新的对比自监督学习算法，而且结构更加简单：这个结构既不需要专门的架构，也不需要特殊的存储库。由于采用了对比学习，这个框架可以作为很多视觉相关的任务的预训练模型，可以在少量标注样本的情况下，拿到比较好的结果。

主要发现：

多个数据增强方法对于对比预测任务产生有效表示非常重要

与监督学习相比，数据增强对于无监督学习更加有用；

在表示和对比损失之间引入一个可学习的非线性变换可以大幅提高模型学到的表示的质量；

与监督学习相比，对比学习得益于更大的批量和更多的训练步骤。

SimCLR的模型结构

SimCLR具体流程

SinnCLR流程图

更加简单明了的理解

创新点

1.数据增强

实验得出的结论是：单独使用一种数据增强，对比学习的效果会很差；random cropping与random color distortion进行组合效果最好；数据增强对对比学习的影响非常明显，这不是一个好的性质，很多时候我们需要进行穷举试错。

一些主要的数据增强的方法

2.projection head

在representation与contrastive loss间使用可学习的non-linear projection，并证明效果较好。这边使用可学习的网络的优势在于避免计算 similarity 的 loss function 在训练时丢掉一些重要的feature。论文中使用非常简单的单层MLP，配上ReLU activation function作为non-linear projection。

3.对比损失函数

NT-Xent(the normalized temperature-scaled cross entropy loss)，重点在于normalized embedding与appropriately adjusted temperature parameter

NT-Xent

$sim(z_{i} ,z_{j} )$ 表示计算两个向量的余弦相似度， $\tau$ 为超参数，2N张图像的损失函数之和求平均，得到最终的损失函数，其实就是在进行2N-1的分类。

算法伪代码

4.加点负例

计算loss时多加了负例。以前都是拿右侧数据的N-1个作为负例，SimCLR将左侧的N-1个也加入了进来，总计2(N-1)个负例。另外SImCLR不采用memory bank，而是用更大的batch size，最多的时候batch size为8192，有16382个负例。为了稳定训练，对所有批量使用LARS优化器。我们使用云TPU训练我们的模型，根据批量大小使用32到128个核心。

在具有数据并行性的分布式训练中，BN均值和方差通常在每个设备上进行局部聚合。在我们的对比学习中，由于正对是在同一个设备中计算的，该模型可以利用局部信息泄漏来提高预测精度，而不需要改进表示。我们通过在训练期间对所有设备的BN均值和方差进行汇总来解决这个问题。其他方法包括洗牌数据示例，或用层规范替换BN

In distributed training with data parallelism, the BN mean and variance are typically aggregated locally per device. In our contrastive learning, as positive pairs are computed in the same device, the model can exploit the local information leakage to improve prediction accuracy without improving representations. We address this issue by aggregating BN mean and variance over all devices during the training. Other approaches include shuffling data examples across devices , or replacing BN with layer norm .

拆分步骤：

数据增强

数据增强后的效果

编码部分

对比损失函数 NT-Xent

稍微回顾一下：

unsupervised：是使用没有标注的数据训练模型

supervised：是使用了有标注的数据训练模型

semi-supervised：是同时使用了有标注与没有标注的数据训练模型。

而self-supervised翻成中文大概是自监督学习，也就是没有标注资料也会自己会学习的方法，属于unsupervised learning。

对比学习(Contrastive learning)

Contrastive learning是self-supervised learning中非常naive的想法之一。像小孩子学习一样，透过比较猫狗的同类之间相同之处与异类之间不同之处，在即使是在不知道什么是猫、什么是狗的情况下 (甚至没有语言定义的情况)，也可以学会分辨猫狗。对比学习的基本概念，其实很简单，这是一种试图教会机器区分相似和不同的东西。

SimCLR v2

SimCLR v2模型结构

参考资料：https://blog.csdn.net/weixin_42764932/article/details/112787761

https://blog.csdn.net/dhaiuda/article/details/117906514

https://blog.csdn.net/m0_37929824/article/details/104440694

https://www.cnblogs.com/mpeter/p/14119217.html

最后编辑于：2022.01.17 10:03:17

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,639评论 6赞 513
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,093评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 167,079评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,329评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,343评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,047评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,645评论 3赞 421
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,565评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,095评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,201评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,338评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,014评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,701评论 3赞 332
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,194评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,320评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,685评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,345评论 2赞 358

2021-12-15

SimCLR v1

创新点

拆分步骤：

SimCLR v2

推荐阅读更多精彩内容