信息熵的相关概念(交叉熵、相对熵等)

1. 信息熵

参考信息熵是什么?- D.Han的回答-知乎
信息熵公式:
H(X) = - \sum_{x \in X} {p(x) \log p(x)}
信息论之父克劳德·香农,总结出了信息熵的三条性质:

  • 单调性,即发生概率越高的事件,其所携带的信息熵越低。极端案例就是“太阳从东方升起”,因为为确定事件,所以不携带任何信息量。从信息论的角度,认为这句话没有消除任何不确定性。
  • 非负性,即信息熵不能为负。这个很好理解,因为负的信息,即你得知了某个信息后,却增加了不确定性是不合逻辑的。
  • 累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和。写成公式就是:

香农从数学上,严格证明了满足上述三个条件的随机变量不确定性度量函数具有唯一形式:
H(X) = - C\sum_{x \in X} {p(x) \log p(x)}

其中的C为常数,我们将其归一化为C=1得到信息熵公式。

事件X=A, Y=B同时发生,若两个事件相互独立P(X=A, Y=B) = p(X=A)p(Y=B),那么信息熵H(A,B)=H(A)+H(B)

如果两个事件不相互独立,那么满足H(A,B)=H(A)+H(B)-I(A,B),其中I(A,B)是互信息,代表一个随机变量包含另一个随机变量信息量的度量。

2. 伯努利分布熵的计算(单随机变量的熵)

从熵的定义中可以看出,熵是关于变量X概率分布的函数,而与X的取值没有关系,所以也可以将X的熵记作H(p)
熵越大代表随机变量的不确定性越大,当变量可取值的种类一定时,其取每种值的概率分布越平均,其熵值越大。熵的取值范围为:0<=H(p)<= \log n,其中n表示取值的种类。

n=2为例,当X取值为0或1时,即X的分布为:
P(X=1)=p,P(X=0)=1-p,0<=p<=1
那么熵为:
H(p) = -(p \log p + (1-p) \log(1-p))

3. 两随机变量系统熵的概念

一般系统中会是多个随机变量,为了简化问题,以两随机变量系统为例,介绍几个与熵相关的概念。

3.1互信息

两个随机变量XY的互信息定义为:
I(X, Y) = \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \frac{p(x,y)}{p(x)p(y)}
XY相互独立时,p(x,y)=p(x)p(y),上式I(X, Y) = 0

3.2 联合熵

两个随机变量XY的联合熵定义为:
H(X, Y) = -\sum_{x \in X} \sum_{y \in Y} p(x,y) \log p(x,y)
联合熵表征了两事件同时发生系统的不确定度。

3.3 条件熵

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。
H(Y|X) = \sum_{x \in X} p(x) H(Y|x) = - \sum_{x \in X} p(x) \sum_{y \in Y}p(y|x) \log p(y|x)

4. 两分布系统中熵的相关概念

4.1 交叉熵

假设p(x)为真实分布,q(x)为拟合分布,真实信息熵为:
H(p) = -\sum_{x \in X} p(x) \log p(x)
如果我们用非真实分布q(x)来代表样本集的信息量的话,那么上式变成:
H(p, q) = -\sum_{x \in X} p(x) \log q(x)
因为其中表示信息量的项来自于非真实分布q(x),而对其期望值的计算采用的是真实分布p(x),所以称其为交叉熵 (Cross Entropy)。

一般交叉熵在机器学习中遇到的比较多,通常作为损失函数。在损失函数中,p(x)代表真实分布,q(x)代表预测情况。通过公式推导:
H(p) = \\ -\sum_{x \in X} p(x) \log p(x) \\ = -\sum_{x \in X} p(x) \log q(x) \cdot \frac{p(x)}{q(x)} \\ = -\sum_{x \in X} p(x) (\log q(x) + \log \frac{p(x)}{q(x)} ) \\ = -\sum_{x \in X} p(x) \log q(x) - \sum_{x \in X} p(x) \log \frac{p(x)}{q(x)} \\ = H(p,q) - D_{KL}(p||q)
后面我们可以得知D_{KL}(p||q)>=0,因此 H(p, q) >=H(p)

直观来看,当我们对分布估计不准确时,总会引入额外的不必要信息期望(可以理解为引入了额外的偏差),再加上原本真实的信息期望,最终的信息期望值要比真实系统分布所需的信息期望值要大。

4.2 相对熵

相对熵也称为KL散度,设p(x)、q(x)是随机变量的两个概率分布,则pq的相对熵:
D_{KL}(p||q) = \sum_{x}p(x) \log \frac{p(x)}{q(x)}
相对熵也是一种熵,有D_{KL}(p||q)>=0

参考资料

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容