https://arxiv.org/abs/2007.13916v2
Demystifying Contrastive Self-Supervised Learning: Invariances, Augmentations and Dataset Biases
自监督表示学习方法最近在目标检测和图像分类等下游任务上超过了监督学习方法。有点神秘的是,最近性能的提高来自于训练实例分类模型,将每个图像及其增强版本视为单个类的样本。在这项工作中,我们首先提出定量实验来揭开这些成果的神秘面纱。我们证明了MOCO和PIRL等方法可以学习遮挡不变表示。然而,它们无法捕捉视点和类别实例的不变性,而视点和类别实例不变性是目标识别的关键组成部分。其次,我们证明了这些方法通过访问干净的以对象为中心的训练数据集(如Imagenet)获得了进一步的收益。最后,我们提出了一种利用非结构化视频来学习具有更高视点不变性的表示的方法。我们的结果表明,在编码不变性和下游图像分类和语义分割任务的性能方面,学习到的表示优于在相同数据上训练的MOCOv2。
1导言
受生物因素的启发和人工标注瓶颈的需要,人们对自我监督的视觉表征学习越来越感兴趣。自我监督学习的早期工作侧重于使用“借口”任务,这些任务的基本真相是免费的,可以通过自动化过程获得[3,4]。大多数借口任务包括预测输入数据的某些隐藏部分(例如,预测未来帧[5]或灰度图像的颜色[6])。然而,学习表征的表现与受监督的表现相差甚远。
过去六个月在自我监督学习领域是革命性的。最近的几项研究[2,1,5,7,8]报告了自我监督学习性能的显著改善,现在超越监督学习似乎已成定局。那么,什么发生了巨大的变化?近期作品的共同主题是关注实例识别任务[9]——将每个实例视为自己的一个类。图像及其增强是这一类的积极例子;所有其他图像均被视为负片。对比损失[5,7]已被证明是一个有用的目标函数,例如判别,但需要收集属于同一类别(或本例中的实例)的成对样本。为了实现这一点,最近的所有作品都采用了“积极”的数据扩充策略,其中可以从单个图像生成大量样本。实例辨别、对比损失和积极增强是这些新收益背后的三个关键因素。
虽然据报道在物体识别任务方面取得了巨大的进步,但这些进步背后的原因仍不清楚。我们的工作试图揭开这些成就的神秘面纱,揭开这一成功背后隐藏的故事。视觉表现的效用可以通过研究其编码的不变性(定义见第4.1节)来理解。首先,我们确定对目标识别任务至关重要的不同不变性,然后评估两种最先进的对比自监督方法[1,2]与它们的监督对应方法。我们的结果表明,最近的大部分收益来自于遮挡不变性。遮挡不变性是积极的数据增强的一个明显副产品,这种数据增强包括裁剪图像的一小部分,并将其视为与完整图像属于同一类别。当涉及到视点和类别实例不变性时,监督方法和自监督方法之间仍然存在差距。
遮挡不变性是有用表示的一个关键属性,但是人工裁剪图像是实现这一点的正确方法吗?对比损失明确鼓励最小化正对之间的特征距离。在这种情况下,该对将由图像的两个可能不重叠的裁剪区域组成。例如,在室内场景图像的情况下,一个样本可以描绘椅子,另一个样本可以描绘桌子。在这里,代表性将被迫在区分这些椅子和桌子时表现不佳——直觉上这是错误的目标!那么这些方法为什么有效呢?我们假设两个可能的原因:(a)预训练数据集——Imagenet的潜在偏差是一个以对象为中心的数据集,它确保不同的作物对应于同一对象的不同部分(b) 表示函数不够强,无法实现这一错误目标,导致出现了一种在实践中效果良好的次优表示。我们通过诊断实验证明,这些方法的成功确实源于训练数据集的以对象为中心的偏见。这表明,在未来的工作中,必须重新考虑和改进采用积极的合成增强的想法,以确保可扩展性。
作为朝着这个方向迈出的一步,在本文中,我们主张在实例识别任务中使用更自然的数据形式:视频。我们提供了一种利用视频中自然发生的转换来学习表示的简单方法。我们证明,与基于图像的学习相比,利用这种形式的数据可以获得更高的视点不变性。我们还表明,学习后的表示在视点不变性、类别实例不变性、遮挡不变性方面优于在相同数据上训练的MoCo-v2[10],并且在对象识别任务上也显示了改进的性能。
图1:侵略性增强收缩自监督学习方法采用侵略性裁剪策略生成正对。通过此策略,图像(左)产生许多非重叠作物(右)作为样本。我们可以观察到,作物不一定描绘同一类别的物体。因此,匹配这些作物特征的表示将不利于下游对象识别任务。