导言:
什么是KL散度?它能够测量距离吗?怎么衡量两个概率分布的相似度?
接下来需要从信息论的角度来解释什么是KL散度,在此之前你需要理解熵和交叉熵的相关知识。
什么是KL散度?
KL散度中的KL代表 Kullback-Leibler,他们两个在1951年提出了KL散度。
有两个概率分布为:P , Q 。KL散度告诉了Q和P的接近程度,也就是相似度,利用交叉熵减去信息熵即可。
所以,KL散度描述了两个概率分布之间的相似程度。
KL散度的性质
- 非负性
- 非对称性
KL散度的用途
- 指导真实分布的建模
- 变分自编码器
https://ermongroup.github.io/cs228-notes/extras/vae/
https://www.cnblogs.com/huangshiyu13/p/6209016.html
一些数学小技巧
严格的证明KL散度的非负性:
-log函数为凸函数,那么利用琴生不等式:
似然比
KL散度不仅可以从信息论的角度来看,也可以从概率的角度来看,也就是似然比
更多:https://medium.com/@cotra.marko/making-sense-of-the-kullback-leibler-kl-divergence-b0d57ee10e0a
总结
- KL散度
- 信息论角度 - 相对熵
- 概率论角度 - 似然比
- KL散度的性质:非负性(如何证明)、非对称性
- KL散度的应用
- KL散度的计算公式
- 期望形式
- 离散/连续形式
参考:https://medium.com/activating-robotic-minds/demystifying-kl-divergence-7ebe4317ee68