登录注册写文章

Channel-wise Knowledge Distillation for Dense Prediction

Channel-wise Knowledge Distillation for Dense Prediction

地址：https://arxiv.org/pdf/2011.13256.pdf 发布：ICCV2021

代码：https://git.io/Distiller

编辑：牛涛

将中间特征作为知识传授给学生网络已经被验证有效，但是直接对齐可能会强制学生网络模拟教师，相当于加上了十分苛刻的约束，可能会导致次优解。

在分割任务中，特征图的不同通道侧重于关注图像的不同区域（比如前景和背景），因此对特征图做通道蒸馏，具体方法如下图：

传统的空间域蒸馏如（a），在本文中首先对每个channel做softmax归一化，然后按通道计算教师和学生的KL散度作为loss

softmax归一化

KL散度计算

值得一提的是，在计算KL散度时只除以C，不知道这样是不是意味着loss反映的是整个空间域level的相似？不知道和对H*W取均值的方法有什么区别。

实验结果：待补充

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Channel Distillation: Channel-Wise Attention fo...
地址：https://arxiv.org/pdf/2006.01683.pdf 发布：Preprint 代码：...
EdgeAI阅读 645评论 0赞 0
知识蒸馏综述：代码整理
【GiantPandaCV导语】收集自RepDistiller中的蒸馏方法，尽可能简单解释蒸馏用到的策略，并提供了...
pprpp阅读 376评论 0赞 0
【知识蒸馏】Knowledge Review
【GiantPandaCV引言】知识回顾（KR）发现学生网络深层可以通过利用教师网络浅层特征进行学习，基于此提出...
pprpp阅读 1,290评论 0赞 0
CVPR2019|Knowledge Adaptation for Efficient Sem...
高效语义分割的知识适应论文翻译 Abstract 准确性和效率对语义分割任务都具有重要意义。现有的深 Fcn 由...
Woooooooooooooo阅读 1,250评论 0赞 0
知识蒸馏综述: 知识的类型
【GiantPandCV引言】简单总结一篇综述《Knowledge Distillation A Survey》中...
pprpp阅读 2,105评论 0赞 1

赞1赞

赞赏

手机看全文