摘要
熵、KL散度、互信息
正文
- 熵
熵认为小概率事件信息量大,一个分布的熵为信息量的期望
离散形式:
连续形式:
- 离散形式下最大熵为均匀分布;连续形式下,
确定时,最大熵为高斯分布
另外有:
交叉熵、相对熵、互信息
交叉熵:使用分布表示
,
相对熵:也称KL散度,使用分布表示
后的分布差异:
互信息:衡量随机变量之间的独立性,
关于KL散度的不对称性
KL散度不是对称的,选择KL散度的哪个方向,取决于问题。一些应用需要这个近似分布q在真实分布p放置高概率的所有地方都放置高概率,而一些应用需要q在p低概率的地方都少放置高概率;前者选择p||q,后者q||p。
参考资料
[1] Bishop M. Pattern Recognition and Machine Learning[M].Springer,2006.
[2] Goodfellow.深度学习[M].人民邮电出版社,2017.