Channel-wise Knowledge Distillation for Dense Prediction

地址:https://arxiv.org/pdf/2011.13256.pdf      发布:ICCV2021

代码:https://git.io/Distiller

编辑:牛涛

将中间特征作为知识传授给学生网络已经被验证有效,但是直接对齐可能会强制学生网络模拟教师,相当于加上了十分苛刻的约束,可能会导致次优解。

在分割任务中,特征图的不同通道侧重于关注图像的不同区域(比如前景和背景),因此对特征图做通道蒸馏,具体方法如下图:

传统的空间域蒸馏如(a),在本文中首先对每个channel做softmax归一化,然后按通道计算教师和学生的KL散度作为loss

softmax归一化
KL散度计算

值得一提的是,在计算KL散度时只除以C,不知道这样是不是意味着loss反映的是整个空间域level的相似?不知道和对H*W取均值的方法有什么区别。

实验结果:待补充

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容