1. 信息熵
参考信息熵是什么?- D.Han的回答-知乎
信息熵公式:
信息论之父克劳德·香农,总结出了信息熵的三条性质:
- 单调性,即发生概率越高的事件,其所携带的信息熵越低。极端案例就是“太阳从东方升起”,因为为确定事件,所以不携带任何信息量。从信息论的角度,认为这句话没有消除任何不确定性。
- 非负性,即信息熵不能为负。这个很好理解,因为负的信息,即你得知了某个信息后,却增加了不确定性是不合逻辑的。
- 累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和。写成公式就是:
香农从数学上,严格证明了满足上述三个条件的随机变量不确定性度量函数具有唯一形式:
其中的为常数,我们将其归一化为
得到信息熵公式。
事件同时发生,若两个事件相互独立
,那么信息熵
。
如果两个事件不相互独立,那么满足,其中
是互信息,代表一个随机变量包含另一个随机变量信息量的度量。
2. 伯努利分布熵的计算(单随机变量的熵)
从熵的定义中可以看出,熵是关于变量概率分布的函数,而与
的取值没有关系,所以也可以将
的熵记作
。
熵越大代表随机变量的不确定性越大,当变量可取值的种类一定时,其取每种值的概率分布越平均,其熵值越大。熵的取值范围为:,其中
表示取值的种类。
以为例,当
取值为0或1时,即
的分布为:
那么熵为:
3. 两随机变量系统熵的概念
一般系统中会是多个随机变量,为了简化问题,以两随机变量系统为例,介绍几个与熵相关的概念。
3.1互信息
两个随机变量和
的互信息定义为:
当和
相互独立时,
,上式
3.2 联合熵
两个随机变量和
的联合熵定义为:
联合熵表征了两事件同时发生系统的不确定度。
3.3 条件熵
条件熵表示在已知随机变量
的条件下随机变量
的不确定性。
4. 两分布系统中熵的相关概念
4.1 交叉熵
假设为真实分布,
为拟合分布,真实信息熵为:
如果我们用非真实分布来代表样本集的信息量的话,那么上式变成:
因为其中表示信息量的项来自于非真实分布,而对其期望值的计算采用的是真实分布
,所以称其为交叉熵 (Cross Entropy)。
一般交叉熵在机器学习中遇到的比较多,通常作为损失函数。在损失函数中,代表真实分布,
代表预测情况。通过公式推导:
后面我们可以得知,因此
。
直观来看,当我们对分布估计不准确时,总会引入额外的不必要信息期望(可以理解为引入了额外的偏差),再加上原本真实的信息期望,最终的信息期望值要比真实系统分布所需的信息期望值要大。
4.2 相对熵
相对熵也称为KL散度,设是随机变量的两个概率分布,则
对
的相对熵:
相对熵也是一种熵,有。