https://hub.fastgit.org/lucidrains/pixel-level-contrastive-learning
1.DenseCL
Dense Contrastive Learning for Self-Supervised Visual Pre-Training
https://arxiv.org/abs/2011.09157 https://git.io/AdelaiDet
到目前为止,大多数现有的自监督学习方法都是针对图像分类而设计和优化的。由于图像级预测和像素级预测之间的差异,这些预先训练的模型对于密集预测任务可能是次优的。为了填补这一空白,我们设计了一种有效的、稠密的自监督学习方法,通过考虑局部特征之间的对应关系,直接在像素(或局部特征)水平上进行学习。本文提出了一种密集对比学习算法,该算法通过在像素级优化输入图像两视图间的成对对比(dis)相似性损失来实现自监督学习。与基线方法MoCo-v2相比,我们的方法引入了微不足道的计算开销(只慢了<1%),但在转移到下游密集预测任务(包括目标检测、语义分割和实例分割)时表现出了一贯的优越性能;并且大大超过了最先进的方法。具体来说,在强大的MoCo-v2基线上,我们的方法在PASCAL VOC对象检测上实现了2.0%的AP,在COCO对象检测上实现了1.1%的AP,在COCO实例分割上实现了0.9%的AP,在PASCAL VOC语义分割上实现了3.0%的mIoU,在Cityscapes语义分割上实现了1.8%的mIoU
2. MaskContrast(★★★★★)
在计算机视觉中,能够在无监督的情况下学习图像的稠密语义表示是一个重要的问题。然而,尽管这一问题具有重要意义,但除少数例外情况外,这一问题仍然没有得到很好的解决,即在小范围的数据集上进行无监督的语义分割。在本文中,我们首次尝试在传统上用于监督案例的数据集上解决这个问题。为了实现这一点,我们引入了一个新的两步框架,在对比优化目标中采用预先确定的先验知识来学习像素嵌入。这与依赖代理任务或端到端集群的现有工作有很大的不同。此外,我们还讨论了先验知识包含物体或其部分信息的重要性,并讨论了以无监督方式获得先验知识的几种可能性。大量的实验结果表明,该方法比现有的方法具有明显的优势。首先,利用K-Means将学习到的像素嵌入直接聚类到语义组中。第二,该方法可以作为语义切分任务的一种有效的无监督预训练方法。特别是,当在PASCAL上使用1%的标记示例对学习的表示进行微调时,我们的性能比有监督的ImageNet预训练好7.1%mIoU。
Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals
https://github.com/wvangansbeke/Unsupervised-Semantic-Segmentation
https://arxiv.org/pdf/2102.06191.pdf
3.Instance Localization for Self-supervised Detection Pretraining
本文的目的是发展专门用于目标检测的自监督式预训练模型,先前对自监督学习的研究已在图像分类上取得了长足的进步,但通常在目标检测上的迁移性能下降。本文的目的是发展专门用于目标检测的自监督式预训练模型。基于分类和检测之间的固有差异,我们提出了一种新的自监督的pretask任务,称为实例定位(instance localization)。图像实例粘贴在各个位置,并缩放到背景图像上。pretask 任务是在给定合成图像以及前景边界框的情况下预测实例类别。我们表明,将边界框集成到预训练中可以促进迁移学习的更好的任务对齐和体系结构对齐。另外,我们在边界框上提出了一种增强方法,以进一步增强特征对齐。结果,我们的模型在Imagenet语义分类上变得更弱,但是在图像patch定位上却变得更强,并且具有用于目标检测的整体更强大的预训练模型。
https://arxiv.org/abs/2102.08318
https://github.com/limbo0000/InstanceLoc
4.Propagate Yourself
Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised Visual Representation Learning
https://arxiv.org/abs/2011.10043
https://hub.fastgit.org/zdaxie/PixPro
https://hub.fastgit.org/lucidrains/pixel-level-contrastive-learning
非监督视觉表征学习的对比学习方法在迁移绩效上达到了显著水平。我们认为,对比学习的力量还没有完全释放出来,因为目前的方法只在实例级的借口任务上进行训练,导致表达对于需要密集像素预测的下游任务来说可能是次优的。在本文中,我们介绍了像素级的借口任务学习密集的特征表示。第一个任务是在像素级直接运用对比学习。此外,我们还提出了一个像素到传播一致性任务,该任务可以产生更好的结果,甚至大大超过最先进的方法。具体来说,通过2.6ap的ResNet-50骨干网,将其转换为Pascal VOC目标检测(C4)、COCO目标检测(FPN/C4)和Cityscapes语义分割,实现60.2ap、41.4/40.5map和77.2mou,0.8/1.0的mAP和1.0的mIoU优于以往建立在实例级对比学习基础上的最佳方法。此外,像素级的借口任务不仅对常规主干网络有效,而且对密集下游任务的头网络也有效,是实例级对比方法的补充。这些结果显示了在像素级定义借口任务的强大潜力,并为无监督视觉表征学习提供了一条新的途径。
5. Unsupervised Learning of Dense Visual Representations
https://arxiv.org/abs/2011.05499
对比自监督学习是一种很有前途的无监督视觉表征学习方法。通常,这些方法学习对同一图像的不同视图(即,数据增强的合成)不变的全局(图像级)表示。然而,许多视觉理解任务需要密集(像素级)表示。在本文中,我们提出了视图不可知稠密表示(VADeR)的稠密表示的无监督学习。维德通过强制局部特征在不同的观察条件下保持不变来学习像素表示。具体来说,这是通过像素级的对比学习来实现的:匹配特征(即在不同视图上描述场景相同位置的特征)应该在嵌入空间中靠近,而非匹配特征应该分开。VADeR为密集的预测任务提供了一种自然的表示方法,并能很好地转移到下游任务。在多个密集预测任务中,我们的方法优于ImageNet监督的预训练(和强无监督基线)。