Channel Distillation: Channel-Wise Attention for Knowledge Distillation

地址:https://arxiv.org/pdf/2006.01683.pdf      发布:Preprint

代码:https://github.com/zhouzaida/channel-distillation

编辑:牛涛

现有的蒸馏方法始终存在于教师网络较大的精度差,作者认为有三个原因,1.教师传授的知识不够好 2.教师有可能传授错的知识 3.教室学生存在容量差,学生没法根据教师监督找到他自己的最优解

如上图,文章在每个下采样前的特征图上应用通道注意力机制,公式如下

简单地说就是对CHW特征图做平均池化成1*1*C,然后对其做MSELoss。

文章还提出了GKD这东西,简单地说就是在网络结果算损失的时候,只算教师网络分类正确的,算损失的方式和st一样还是KL散度。公式如下

由于研究表明,在训练初期KD会帮助训练,但在末期反而会妨碍学生找到自己的最优解,因此采用Early Stop的方式防止过拟合,但是很难控制在哪里停止训练,所以采用了软控制的方式,对Loss前的系数加入衰减因子,定义如下

由于GKD只教学生正确的,文章认为可以不对其衰减,因此总损失函数可以写成

实验结果:待补充

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容