RePr展示一种周期性移除与取回卷积滤波器的训练策略,通过减少冗余的学习特征,改进模型的泛化能力。对常规卷积网络和更复杂的现代深度学习网络架构都很有效,在多种任务上的准确率都有所提升,甚至小模型也有不错的效果。
论文地址:
https://arxiv.org/pdf/1811.07275.pdf
正交特征
卷积特征是多个独立卷积核激活的线性组合,如果一个卷积特征能改善模型的泛化能力,可以认为这个卷积特征是有效的。卷积特征的有效方向越多,对特征空间的表达能力就越强,泛化能力就越好。在过去,我们都尝试使用正则化减少激活特征的相关性,但是效果的改进很有限。
最近的研究成果表明,权重的正交性可以改善模型训练收敛的稳定程度,并有效加速模型的训练速度。本文在卷积网络(ConvNet)引入正交特征,并初步形成特征正交性排名的准则。实验表明,通过正则化代价函数项,对权重正交性改善有限,卷积特征不足以表达整个输入数据的流形空间。提出临时移除重复滤波器策略作为一种类似正则化的方法,在不影响模型收敛的情况下,带来很好的特征正交性。
模型大小与特征相关性
过去我们认为小模型精度不足的原因是权值参数过少,导致卷积特征少无法表达特征空间。因此VGG-16网络在 CIFAR-10数据集上训练形成的相关冗余特征应该远多于ConvNet等小模型。RePr利用典型相关分析(CCA)研究ConvNet卷积层的特征相关性,发现任何滤波器间的相关是训练方法效率不够,而不是过参数化导致的。通过移去特定滤波器,验证此滤波器对模型效果的贡献,在测试集上考察该情况模型的精度来评估。
训练策略
RePr的训练流程比较简单,训练整个网络后根据内部滤波器正交性(Inter-Filter Orthogonality)暂时屏蔽30%的滤波器,继续调优网络参数。把屏蔽掉的滤波器取回再次训练剩下的网络,与现有滤波器组合正交方式实现重新初始化,迭代重复该过程多次。
Inter-Filter Orthogonality
Greedy Oracle不一定是寻找最差的滤波器度量最好的标准,而且在大型网络中计算存在困难。因此RePr设计了内部滤波器正交性,作为滤波器相关性排名的度量。公式如下:
上式是一个层的多个卷积核的组合,用矩阵表示为。对归一化后,与其转置相乘得到(大小为)。第i行是其他滤波器对第i个滤波器的投影,即相关性,正交性越大值就越小,此行的总和亦越小,因此可以用于滤波器的排名。
实验结果
标准训练方案和RePr的性能对比
上图是标准训练方案和RePr方法在三层ConvNet网络上,CIFAR-10数据集中的性能对比。图中A点进行第一次重复滤波器移除。 C点表示此时模型在测试集的准确率,测试集的准确率下降幅度,比在训练集的下降幅度要小,毕竟训练集具有过拟合现象。D点上测试集准确率已经基本和C点相近,但此时的滤波器只有原来的70%,这与最近剪枝工作成果结论一致。取回30%的滤波器进行正交重初始化并训练到E点时,测试准确率已经远超标准训练方案的效果。
RePr在目标检测的效果
RePr在VQA任务的效果
作者在其他任务上对 RePr进行对比实验,发现效果都有所提高。
结论
RePr训练策略周期性地移除和取回表达力过低的滤波器,移除低质量的滤波器,有利于RePr在剩余滤波器中重新发现新的特征。当重新取回低质量滤波器,并进行正交重初始化和继续训练后,RePr能使模型容量的分配更加稳定有效。