信息熵与交叉熵

信息熵
一条信息的信息量和它的不确定性有关系,对于不知道不了解的事情,所需要的信息量更大。

对于大概率发生的事情的信息量较小,而越小概率的事情发生的信息量越大。比如太阳从东方升起,概率大信息量小。

对于两个独立事件同时发生的概率为p(x,y)=p(x)p(y),而同时发生时获得的信息量应该等于各自发生时获取的信息之和,I(x,y)=I(x)+I(y) 。
由此可见,I(x)一定与p(x)的对数有关。


图1. 对数运算法则

因此有


图2. I(x)与p(x)的关系

其中负号保证为非负数(其中log底在信息论中通常为2,在机器学习中通常为e,如图3所示,当a>1且0<=p(x)<=1时,为图中标黄一部分,需要取负数使其为非负数)
图3. 对数函数

对一个随机变量的不确定性的度量,是对所有可能发生的事件产生的信息量的期望。
图4. 信息熵公式

从公式可得,随机变量的取值个数越多,信息熵就越大。
当随机分布为均匀分布时,熵最大。

交叉熵
关于样本集的两个概率分布p(x)和q(x),其中p(x)是真实分布,q(x)是非真实分布。如果用非真实分布q(x)来表示来自真实分布p(x)的平均编码长度,则称之为交叉熵。


交叉熵公式
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1 信息量 信息量即信息多少的度量。跟我们认识中秒是时间多少的度量,米是长度多少的量度是一样的意思。 百度百科上定...
    chao6510阅读 455评论 0 0
  • 主要参考机器学习笔记十:各种熵总结 一、什么是熵 熵定义:随机变量的概率分布对应的 **信息量的平均值 ** 就叫...
    小碧小琳阅读 5,299评论 0 5
  • 熵的相关概念,第一次在决策树那章做了简单介绍,但是要想正确理解熵的确实需要下一番功夫。这次,我们在最大熵模型这章继...
    559fb24f07f0阅读 5,383评论 2 11
  • GitHub简书CSDN 该文章转载自详解机器学习中的熵、条件熵、相对熵和交叉熵 1、信息熵 (informati...
    MaosongRan阅读 2,354评论 0 0
  • 6月5日 时间就在这一天截止 所有的一切小心思都消失殆尽 所有的都回到最初的状态 但我对你的感觉却回不到那时了 相...
    都卞阅读 333评论 1 0