本文为北大唐杰组发表的自监督学习综述论文

1 INTRODUCTION

Yann LeCun将自监督学习定义为”the machine predicts any parts of its input for
any observed part”.
作者将自监督学习做如下概述：

从数据本身依靠半自动过程获取标签
根据数据的其他部分预测数据的一部分信息（可参考image inpainting任务）。这里的其余部分指不完整的、扭曲的、变形的、污损的。模型基于这些“其余部分”完成对于图像整体或者部分的修复。

非监督与自监督的关系。
自监督学习由于没有人为标注数据，可看作是非监督的分支。但是严格来讲，非监督学习旨在学习数据的特定模式，如聚类，异常检测。自监督学习旨在复原数据，仍属于监督型学习的范式中。

image.png

2 .MOTIVATION OF SELF-SUPERVISED LEARNING

监督型学习算法极度依赖数据，由于它基于很少的先验假设，当数据量较小时，算法容易过拟合并且在场景间性能不均衡。为了解决监督型学习的OOD及泛化问题，一般从新的网络结构和提供更多的训练数据两个方面入手，但是高质量的手动标注数据非常昂贵。自监督学习最重要的一点便是可以借助海量的无标签数据进行学习。
作者将目前的自监督学习归类为生成式，对比式，生成/对比式（对抗）。

image.png

生成式：训练自编码器压缩重建输入。
对比式：训练编码器将输入编码为向量，对比相似性。
对抗式：；使用自编码器生成假样本，使用判别器判别真假样本（GAN）

image.png

三种方式的区别：

隐向量：生成式和对比式中，向量z是显示的，对抗式中，z是隐式的。
判别器：生成式没有判别器，另外两种方法有判别器。
训练目标：生成式使用重建损失，对比式使用对比相似度度量，对抗式使用分布差异。

近年自监督学习方法

3.GENERATIVE SELF-SUPERVISED LEARNING

包括autoregressive
(AR) models, flow-based models, auto-encoding
(AE) models, and hybrid generative models.

自回归模型autoregressive(AR) models

AR可以看作是贝叶斯网络结构，在自然语言处理中，自回归语言模型的目标通常是最大化正向自回归因子分解的似然。例如 GPT、GPT-2 使用 Transformer 解码器结构进行建模；在计算机视觉中，自回归模型用于逐像素建模图像，例如在 PixelRNN 和 PixelCNN 中，下方（右侧）像素是根据上方（左侧）像素生成的；而在图学习中，则可以通过深度自回归模型来生成图，例如 GraphRNN 的目标为最大化观察到的图生成序列的似然。自回归模型的优点是能够很好地建模上下文依赖关系。然而，其缺点是每个位置的 token 只能从一个方向访问它的上下文。

基于流模型flow-based models

flow-based models 是希望估计数据的复杂高维分布。

自编码器模型

AE的目标是对损坏的输入进行重建。涉及的模型包括基本AE,DAE,VAE.

论文学习Self-supervised Learning:Generative or Contrastive

论文学习Self-supervised Learning:Generative or Contrastive

1 INTRODUCTION

2 .MOTIVATION OF SELF-SUPERVISED LEARNING

3.GENERATIVE SELF-SUPERVISED LEARNING

自回归模型autoregressive(AR) models

基于流模型flow-based models

自编码器模型

推荐阅读更多精彩内容