地址:https://arxiv.org/pdf/2006.01683.pdf 发布:Preprint
代码:https://github.com/zhouzaida/channel-distillation
编辑:牛涛
现有的蒸馏方法始终存在于教师网络较大的精度差,作者认为有三个原因,1.教师传授的知识不够好 2.教师有可能传授错的知识 3.教室学生存在容量差,学生没法根据教师监督找到他自己的最优解
如上图,文章在每个下采样前的特征图上应用通道注意力机制,公式如下
简单地说就是对CHW特征图做平均池化成1*1*C,然后对其做MSELoss。
文章还提出了GKD这东西,简单地说就是在网络结果算损失的时候,只算教师网络分类正确的,算损失的方式和st一样还是KL散度。公式如下
由于研究表明,在训练初期KD会帮助训练,但在末期反而会妨碍学生找到自己的最优解,因此采用Early Stop的方式防止过拟合,但是很难控制在哪里停止训练,所以采用了软控制的方式,对Loss前的系数加入衰减因子,定义如下
由于GKD只教学生正确的,文章认为可以不对其衰减,因此总损失函数可以写成