如何理解交叉熵(Cross Entory)?

交叉熵的理论来源是信息论。本文从怎么衡量一个事件的信息量大小开始,逐步深入,引入交叉熵的由来,并附上计算公式。最后解释了为什么很多算法要用交叉熵作为目标函数(损失函数)

一、自信息(self-information)

对于事件x,它的自信息(self-information)定义为:


当log的底数为e,𝐼(𝑥)的单位是奈特(nats)。一奈特是以1/𝑒的概率观测到一个事件时获得的信息量。当log的底数为2,单位是比特(bit)或香农(shannons)。

二、香农熵(Shannon entroy)

自信息只能处理单个信息,而香农熵(Shannon entroy)可以用来对整个概率分布中的不确定性总量进行量化,也就是指遵循这个分布的事件所产生的期望信息总量,计算公式为:



其中,H(x)也记作H(p)。

三、交叉熵(Cross Entroy)

现在有关于样本集的两个概率分布P和Q,P代表真实分布(计算时常用经验分布代替),Q为非真实分布,通常是对样本分布的人为估计。如果用真实分布P来衡量一个样本的香农熵,计算公式为:


如果用非真实分布Q来衡量一个样本的香农熵,计算公式为:


H(P,Q)即为交叉熵。

举个例子:

真实概率分布P为[0.5, 0.25, 0.25, 0],
非真实分布Q为[0.25, 0.25, 0.25, 0.25],
则H(P) = 0.5*log2 + 0.25*log4 + 0.25*log4 = 1.5
H(P, Q) = 0.5*log4 + 0.25*log4 + 0.25*log4 = 2

例子中可以发现,H(P,Q) > H(P),那么对于不同取值,该不等式是不是一直成立呢?来看第四步

四、交叉熵应用

重点来了,

根据吉布斯不等式Gibbs’ inequality
H(P, Q) >= H(P)
恒成立,当且仅当Q为真实分布时取等号。

通过最小化交叉熵,可以来找到逼近真实分布的Q。

因此,一些算法将交叉熵做为损失函数。例如,分类问题中,用交叉熵代价函数来替代方差代价函数,可以加快训练速度。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 概念 熵的本质是香农信息量的期望。 现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布。按照真实分...
    logic_wei阅读 5,524评论 0 0
  • 请听题:什么是熵?什么是交叉熵?什么是联合熵?什么是条件熵?什么是相对熵?它们的联系与区别是什么? 如果你感到回答...
    工程师milter阅读 12,418评论 5 57
  • 熵的相关概念,第一次在决策树那章做了简单介绍,但是要想正确理解熵的确实需要下一番功夫。这次,我们在最大熵模型这章继...
    559fb24f07f0阅读 5,694评论 2 11
  • 1 信息熵 信息熵代表的是随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大。 1.1 举例 题...
    0过把火0阅读 966评论 0 0
  • 今天是2月14号,是情人节,是西方的传统节日之一。不过这种节日在中国越来越火热,情人节情侣们大多在秀恩爱,而单身狗...
    烟花瞬间阅读 577评论 15 8

友情链接更多精彩内容