地址:https://arxiv.org/pdf/2011.13256.pdf 发布:ICCV2021
代码:https://git.io/Distiller
编辑:牛涛
将中间特征作为知识传授给学生网络已经被验证有效,但是直接对齐可能会强制学生网络模拟教师,相当于加上了十分苛刻的约束,可能会导致次优解。
在分割任务中,特征图的不同通道侧重于关注图像的不同区域(比如前景和背景),因此对特征图做通道蒸馏,具体方法如下图:
传统的空间域蒸馏如(a),在本文中首先对每个channel做softmax归一化,然后按通道计算教师和学生的KL散度作为loss
softmax归一化
KL散度计算
值得一提的是,在计算KL散度时只除以C,不知道这样是不是意味着loss反映的是整个空间域level的相似?不知道和对H*W取均值的方法有什么区别。