1. 摘要
- 主动学习通过选择有代表性的或者信息丰富的样本减少人工标注。自监督训练从大量的无标注样本学习特征然后在少许有标注样本上调参。当前工作重点在于这两个方法能否相互受益,本文在目标识别数据CIFAR10/100和Tiny ImageNet做了实验,结果表明在减少标注耗时上自监督训练比主动学习更有效。但是当标注预算较高时,两者的结合是有益的。当近几乎一半的数据集被标记时,主动学习与自我训练或从头开始训练之间的性能差距就会缩小。
2. 引言
- 主动学习可以被划分为两个子领域。基于信息量的方法的目的是识别那些数据样本,对于这些样本来说算法是最不确定的。将这些样本添加到标注数据池中可以改善算法性能。基于代表性的特征方法旨在以这样的方式标记数据,即对于所有未标记的数据,都有一个“代表性”(基于特征空间中的距离定义)标记样本。主动学习方法通常通过仅在标记的数据池上对网络进行监督训练来评估:获得最佳结果。
- 自监督训练主要的进展来自于最近的一系列工作,这些工作学习的表征对于输入数据的一系列扭曲(如剪裁、应用模糊、翻转等)是不变的。在这些方法中,产生了图像的两个扭曲的版本,称为视图。然后,通过强制要求两个视图的表征相似来训练网络。为了防止这些网络收敛到一个无效解,已经开发了不同的方法。
- 自监督学习可以学习高质量的特征,这些特征几乎与监督方法学习的特征相同。因此,它大大提高了未标记数据的有用性。标准的主动学习范式在标记的数据集上训练算法,并根据所得到的算法选择预计对算法来说最具有信息量的数据点,以更好地理解问题。
- 基于我们的实验可以得出以下结论:
1. 在我们对三个数据集的评估中,自监督训练在减少标记工作方面比AL有效得多。
2. 自监督训练+AL显著优于AL方法。然而,对于大的标注预算(在我们的实验中大约占数据集的50%),性能差距会减小。
3. 基于三个数据集的结果,自监督训练+AL略微优于自监督训练,但仅当标注预算较高时。
3. 前言
- 我们设计了一个框架由两部分组成:自监督训练和主动学习。首先,我们将自监督模型在未标记的样本上进行预训练。接下来,使用最初的标记数据,在预训练模型的基础上微调一个线性分类器。然后,我们使用微调后的模型运行主动学习循环,选择信息量最大或最有代表性的样本,进行标注。因此,原始数据集成为部分标签。
-
自监督模型采用SimSiam,该模型基于孪生网络,试图最大化两个增强图像之间的相似性,但要满足避免崩溃解的某些条件。这使我们能够在不使用负样本对的情况下获得有意义的表征。丰富的表征也可能有助于基于代表性的主动学习方法。
- 该框架包括3个阶段:
1)在整个数据集上训练自监督训练。
2)冻结主干网络的权重并给定少量标记数据,使用线性分类器或支持向量机以监督的方式进行微调。
3)运行该模型对未标记的数据进行推理,然后通过采集函数对样本进行从信息量最小到最高的排序。最后将信息量最大的样本通过专家进行标注,并添加到标注集。
3.1 主动学习
- 主动学习通常设置成多轮迭代训练、选择样本,每次选的数量叫budget
- 每一个循环的开始,模型在标记样本上进行训练;训练后,模型在每一个训练末尾通过采集函数选择样本进行标注;这个标注的样本被添加到标注数据集用于下一个循环的训练。直到达到循环次数。在AL中采集函数是至关重要的部分。
3.2 自监督训练
- SimSiam的其中一个分支得到了附加的预测器(MLP网络),其输出目的是尽可能接近另一个分支。一个分支做分类预测,另一分支训练过程中不进行反向传播。模型增加两个分支的相似度。
- SimSiam除了简单之外,既不需要负样本挖掘,也不需要大的小批量,这显著降低了GPU需求。
4. 实验设置
- 均匀地从所有类中随机选择整个数据集的1%,2%和10%。对于其中一个数据集,本文还评估了0.1%和0.2%的选取规模。
- 在每个循环中,训练要么完全重新开始,要么首先使用自监督训练预训练主干网络。该模型在c个循环中进行训练,直到完成所有的选取规模。
5. 实验结果
-
AL performance on cifar10
实验表明特别是在低预算(训练标注少)的情况下,自监督大大减少了所需的标签。
这两种方法(使用和不使用自监督预训练)在标记了50%的数据后几乎达到了完整的性能,缩小了自监督方法和监督方法之间的差距。从主动学习的角度来看,当标注数据小于1%时,随机抽样优于AL。
-
AL performance on cifar100
当接近有包含50%标记数据时,无自监督训练的AL与自监督训练的同类方法的性能相当,这意味着当预算增加时,自监督训练的影响会减少。但是无论是否使用自监督的预训练,在低预算情况下随机抽样都优于低预算的主动学习方法。
-
AL performance on Tiny ImageNet
自监督的预训练在低预算方案中大大减少了所需的标记。与CIFAR数据集不同的是,AL需要超过50%的标记来缩小它们与自监督训练的性能差距。在采用自监督训练的方法中,随机抽样的效果较好。但是与上面一样增加标记数据可以缩小与AL方法的性能差距。
两个实验结果都表明:在主动学习框架中,低预算的情况下SimSiam帮助很大。在高预算下,从头训练和SimSiam之间的性能差距缩小了。
-
Correlation between number of samples per class required for AL and number of classes in the datasets在此预算下,AL+self-training比Random+self-training表现好。
6. 结论
- 当接近几乎一半数据集被标记时,主动学习与自监督训练之间的性能差距逐渐缩小。