一、 teacher-student框架
MEAL与MEAL v2模型架构
1. 基本概念
teacher模型用来指导student模型的训练
2. KL散度
KL散度可以用来衡量两个概率分布之间的差异,在训练过程中通过最小化teacher的概率输出和student概率的KL散度完成知识蒸馏。
3. 判别器
此处判别器采用3层FC区分teacher模型还是student模型。此处可能是一种正则化方式,因为此处的限制并不是让两者的输出拉近,而是让两者的类型拉近。
判别器的loss与KL loss相加,共同作用于模型的训练。