深度学习-知识蒸馏

出于计算资源的限制或效率的要求，深度学习模型在部署推断时往往需要进行压缩，模型蒸馏是其中一种常见方法。将原始数据集上训练的重量级（cumbersome）模型作为教师，让一个相对更轻量的模型作为学生。

对于相同的输入，让学生模型输出的概率分布尽可能的逼近教师模型输出的分布，则大模型的知识就通过这种监督训练的方式「蒸馏」到了小模型里。小模型的准确率往往下降很小，却能大幅度减少参数量，从而降低推断时对 CPU、内存、能耗等资源的需求。

参考资料

https://mp.weixin.qq.com/s/-L5_S3iC4kSAbplMOcA21w

最后编辑于：2022.11.23 13:31:03

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

赞赏

手机看全文