信息熵

信息量：用来度量一个信息的多少。

解释：获取者对它的了解程度相关，概率越大认为它的信息量越小，概率越小认为它的信息量越大。

用以下式子定义：

$I(x)=−logp(x)$

信息熵用来描述一个信源的不确定度，也是信源的信息量期望。

对这个信源信号进行编码的理论上的平均最小比特数（底数为2时）。

式子定义如下（log 的底数可以取2、e等不同的值，只要底数相同，一般是用于相对而言的比较）：

$H(X)$

$=Ex∼X[I(x)]$

$=Ex∼X[−logx]$

$=−∑x∈X[p(x)logp(x)]$

意义：该式子对依据概率分布P生成的符号进行编码所需的比特数在平均意义上的下界。

信息出现频率高，分配比特数要小：

同理频率低的，分配大。

概率低→定义信息量高；概率低→定义编码长度长。

信息熵范围

接近确定的分布有较低的熵；接近均匀分布的概率分布有较高的熵。

分布与熵

在信源中出现的消息的种数一定时，这些消息出现的概率全都相等时，有信源的信息熵最大。

推出信息熵的范围：

$0≤H(X)≤−\sum\nolimits_{}^n 1/nlog(1/n)=log(n)$

其中n是不同信息数

相对熵（KL散度）

相对熵：在信息论中度量两个信源的信号信息量的分布差异。

机器学习中直接把其中的信息量等概念忽略了，当做损失函数，用于比较真实和预测分布之间的差异。

式子定义如下：

$DKL(P||Q)$

$=Ex∼P[logP(x)Q(x)]$

$=Ex∼P[logP(x)−logQ(x)]$

KL散度衡量的是，当我们用一种能使概率分布Q产生的消息的长度最小的编码，发送由分布P产生的消息时，所需要的额外信息量。

用使得P分布产生的消息长度最小的编码，来发送P分布产生的消息时，

对于某符号x

编码信息量： $−logP(x)$

概率是： $P(x)$

P分布平均每个符号要编码的信息量： $∑x∈P[−P(x)logP(x)]=H(P)$

即是P分布的信息熵

同理：

Q分布产生的消息长度最小的编码，来发送P分布产生的消息时

对于某符号x

编码信息量： $−logQ(x)$

概率是： $P(x)$

P分布平均每个符号要编码的信息量： $∑x∈P[−P(x)logQ(x)]=H(P,Q)$

这是P和Q的交叉熵

额外信息量即：

P分布信息熵与P和Q的交叉熵之差

两个分布相同时，它们的KL散度为0

KL散度性质：

1.KL散度不是一个对称量

KL散度不是一个对称量

2.KL散度非负

由Jenson不等式可证明KL散度非负，此处不证明了。

JS散度

JS散度：度量两个概率分布的相似度

JS散度是对称的，取值是0到1之间

公式如下

交叉熵

交叉熵式子定义：

$H(P,Q)=−Ex∼P(x)logQ(x)$

此处是x到p（x）注意，简书公式果然不好用（QAQ）下一次手推吧

假如P是真实分布，当使用 $DKL(P||Q)$ DKL(P||Q)作为损失函数

因为只含P的那一项并不会随着拟合分布Q的改变而改变。

所以这时候损失函数可以使用H(P,Q)来代替简化。

由于 $H(P,Q)=DKL(P||Q)+H(P)$ 可看出H(P,Q)比H（p）大

条件熵

条件熵 $H(Y|X)$ 中X和Y不是分布而是随机变量

$H(Y|X)$ 表示在已知随机变量 X的条件下 随机变量 Y的不确定性

注意：这里的X并不是某个确定值，而是随机变量，所以在计算熵的时候要对所有 $H(Y|X=x)$ 进行求和

化简就略了吧：

实际上定义的就是在所有X的条件下，Y的混乱度的平均值。

互信息

互信息：

1.用来度量两个随机变量之间的相互依赖程度

2.度量能从一个随机变量中获取的另一个随机变量的信息量。

3.当一个随机变量已知时，另一个随机变量的不确定性的减少程度

互信息值也等于Y的信息熵减去X和Y的条件熵。

联合熵

联合熵也是用随机变量而不是分布来表示，定义如下：

$H(X,Y)=−∑x∑yP(x,y)log2P(x,y)$

衡量随机变量X和随机变量Y的联合概率密度的信息熵大小。

(数学公式功能不好用）

信息熵

信息熵

信息熵

相对熵（KL散度）

交叉熵

条件熵

互信息

联合熵

相关阅读更多精彩内容

友情链接更多精彩内容