自监督学习被称为“智能暗物质”1,是推进机器学习的一条有前途的道路。与受标记数据可用性限制的监督学习相反,自监督方法可以从大量未标记数据中学习 [Chen 等人,2020b,Misra 和 Maaten,2020]。自监督学习 (SSL) 巩固了深度学习在自然语言处理方面的成功,从而推动了从自动机器翻译到在网络规模的未标记文本语料库上训练的大型语言模型的进步 [Brown 等人,2020 年,Popel 等人,2020 年] 。在计算机视觉领域,SSL 通过在 10 亿张图像上训练的 SEER 等模型突破了数据大小的新界限 [Goyal 等人,2021]。用于计算机视觉的 SSL 方法已经能够匹配或在某些情况下超越基于标记数据训练的模型,甚至在 ImageNet 等竞争激烈的基准上也是如此 [Tomasev et al., 2022, He et al., 2020a, Deng et al., 2009] 。 SSL 还成功应用于视频、音频和时间序列等其他模式 [Wickstrøm et al., 2022, Liu et al., 2022a, Schiappa et al., 2022a]。
自监督学习定义了一个基于未标记输入的借口任务,以产生描述性和可理解的表示[Hastie et al., 2009; Goodfellow et al., 2016]。在自然语言中,SSL 的一个常见目标是屏蔽文本中的单词并预测周围的单词。预测单词周围的上下文的目标促使模型无需任何标签即可捕获文本中单词之间的关系。相同的 SSL 模型表示可用于一系列下游任务,例如跨语言翻译文本、摘要,甚至生成文本以及许多其他任务。在计算机视觉中,类似的目标存在于 MAE 或 BYOL 等模型中,学习预测图像或表示的掩模斑块 [Grill et al., 2020; He et al., 2022]。其他 SSL 目标鼓励将同一图像的两个视图(通过添加颜色或裁剪形成)映射到相似的表示形式。
利用大量未标记数据进行训练的能力带来了许多好处。传统的监督学习方法是针对通常基于可用标记数据先验已知的特定任务进行训练的,而 SSL 则学习跨许多任务有用的通用表示。 SSL 在医学等领域尤其有用,因为这些领域的标签成本高昂或无法预先知道特定任务 [Krishnan et al., 2022, Ciga et al., 2022]。还有证据表明,与监督模型相比,SSL 模型可以学习对对抗性示例、标签损坏和输入扰动更稳健的表示,并且更公平 [Hendrycks et al., 2019; Goyal et al., 2022]。因此,SSL 是一个越来越受关注的领域。然而,就像烹饪一样,训练 SSL 方法是一门微妙的艺术,进入门槛很高。