机器学习基础·常用信息论基本概念

摘要

熵、KL散度、互信息

正文

  1. 熵认为小概率事件信息量大,一个分布p的熵为信息量的期望
    H(p)=E_{x\sim p}[-\ln p(x)]
    离散形式:H[p]=-\sum_ip(x_i)\ln p(x_i)
    连续形式:H[x]=-\int p(x)\ln p(x)dx
  • 离散形式下最大熵为均匀分布;连续形式下,\mu,\Sigma确定时,最大熵为高斯分布N(x\mid \mu,\Sigma)
    另外有:
    H[y\mid x]=-\iint p(y,x)\ln (y\mid x)dydx
    H[x,y]=H[y\mid x]+H[x]
  1. 交叉熵、相对熵、互信息
    交叉熵:使用分布q表示p-\int p(x)\ln q(x)dx
    相对熵:也称KL散度,使用分布q表示p后的分布差异:KL(p\mid \mid q)=\int p(x)\ln p(x) dx-\int p(x)\ln q(x) dx
    互信息:衡量随机变量x,y之间的独立性,I[x,y]=KL(p(x,y)\mid\mid p(x)p(y))=H[x]-H[x\mid y]=H[y]-H[y\mid x]

  2. 关于KL散度的不对称性
    KL散度不是对称的,选择KL散度的哪个方向,取决于问题。一些应用需要这个近似分布q在真实分布p放置高概率的所有地方都放置高概率,而一些应用需要q在p低概率的地方都少放置高概率;前者选择p||q,后者q||p。

参考资料

[1] Bishop M. Pattern Recognition and Machine Learning[M].Springer,2006.
[2] Goodfellow.深度学习[M].人民邮电出版社,2017.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容