主要参考机器学习笔记十:各种熵总结
一、什么是熵
熵定义:随机变量的概率分布对应的 **信息量的平均值 ** 就叫做随机变量的熵。
可见,为了理解熵,需要先理解什么是信息量。
1.1 信息量
首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢?
我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,
比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是要是一件平时觉得不可能发生的事情发生了,那么我们接收到的信息要大得多.因此,我们对于信息内容的度量就将依赖于概率分布p(x).
一句话总结:概率越小的事件发生时,带来的信息量越大。
因此我们寻找一个函数,能够体现这句话的含义,于是有单调递减函数
函数图像如下所示:
注意一般是以2为对数的底。
若是称I(x)为自信息量,那么根据其中x的不同,根据概率中的联合概率,条件概率,我们可以得到
联合自信息量
条件自信息量
1.2、熵
熵(entropy):已知信息量I(x),那么我们想要知道这整个概率分布对应的信息量的平均值.这个平均值就叫做随机变量x的熵 。
求I(x)的期望,其中I(x)是概率分布p(x)的函数,则根据定理,可以得到I(x)的期望,也就是熵:
对“信息熵的本质可以看做是某个分布的自信息的期望”这句话的进一步理解:
也就是说,熵,所求的是,这个事件的信息量的平均值。所以说,熵越大,这个事件整体所含的信息量就越大,不确定性就越高。比如,苹果一定落地,信息量就很小。苹果落到某个盒子,熵也就大了,信息量比较大,不确定性也比较大了。
需要注意的地方
-
服从于某个分布的X的熵,等价于这个分布的熵
因为熵只依赖于X的分布 - 定义0log0=0,因为可能出现某个取值概率为0的情况
- 熵越大,随机变量的不确定性就越大。
常用的例子:
X服从0-1分布,即:
则熵为:
当事件发生概率p从0依次取到1时,画出熵的图:
1.当p=0或者p=1的时候,随机变量可以认为是没有不确定性.
2.当p=0.5的时候,H(p)=1,随机变量的不确定性最大.
熵的计算公式,就是按照期望公式求概率分布的期望。
二、条件熵
2.1、联合熵与条件熵
仿照之前信息量的公式,根据联合分布与条件分布,我们可以得到联合熵(复合熵)和条件熵:
复合熵:
条件熵:
为什么要在条件概率前面再乘上以一个p(yj)?
如果以x表示学生体重,以y表示身高,以 p(x∣y)表示身高为某个特定的y时的体重为x的概率,把熵公式用到这个特殊情况得到是熵显然应当是
上面是确定的y = yj时计算得到的概率,然而y等于yj的概率是p(yj),所以在不确定y等于多少时,应该在前面乘以一个yj发生时的概率,y一共有m个取值,所以应该是m个p(yj)乘以上面式子再相加。
于是可以得到上面的条件熵。
2.2条件熵的变形
根据条件分布:
可以把上面的求条件熵的式子改成如下形式:
上面式子表明,只要你能得到联合分布和y的分布就能够求出条件熵了,不过还可以经过推导,得到更加常见的形式:
证明:
三、相对熵(KL散度)
要理解相对熵,先理解交叉熵是什么
3.1、从信息论编码长度理解交叉熵与相对熵
参考中, 把H(p,q)定义为交叉熵,跟上面的联合熵有些出入,不知道是不是定义有问题,暂时就这么认为把,区别开来。
由Gibbs' inequality知,交叉熵H(p,q)一定大于熵H(p),即用用错误分布来表示真实分布的平均编码长度,一定要长与真实分布的平均编码长度。例子:
我们将由q得到的平均编码长度比由p得到的平均编码长度多出的bit数称为“相对熵”:
3.2、从信息量理解相对熵
参考一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉
在机器学习中,P往往用来表示样本的真实分布,比如样本的真是分布为[1,0,0]。Q用来表示模型所预测的分布,比如[0.7,0.2,0.1] 。
直观的理解就是如果用P来描述样本,那么就非常完美。而用Q来描述样本,虽然可以大致描述,但是不是那么的完美,信息量不足,需要额外的一些“信息增量”才能达到和P一样完美的描述。
其中,额外的信息增量就是:
机器学习就是通过反复训练,学习Q,让Q也能完美的描述样本,那么就不再需要额外的“信息增量”,此时Q等价于P。
相对熵的两个主要性质:非对称性与非负性:
参考交叉熵是否非负?
知道,离散型随机变量的熵时非负的,连续性随机变量可能为负。
3.3、相对熵的应用
3.3.1、计算文本相似度
相对熵可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵(KL散度)可以用于比较文本的相似度,先统计出词的频率,然后计算KL散度就行了。
3.3.2、在机器学习中作为损失函数进行训练
具体的一些细节,参考一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉
四、互信息、信息增益
先看定义:互信息可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
公式是怎么得到的呢?
根据上一小节的信息熵的理解:相对熵可以看做,为了和真实分布P一样完美描述事件的额外增量。
当我们知道Y的条件下,能够帮助我们判断X,此时的信息量相对为H(X|Y)。当我们不知道Y时,此时为了描述X的信息量H(X),需要多一些额外的信息量,而这里的额外增量,就是信息增益:I(X,Y)。
于是 I(X,Y) = H(X) - H(X|Y),可以得到信息增益的公式。
举例:西瓜书p75页,有对于信息增益的讲解 。
此时,我们认为X为label即[好瓜,坏瓜],色泽为Y[青绿,乌黑,浅白]。我们可以计算出在不知道Y时的H(X)为0.998,在已知Y时,H(X|Y)为0.889.于是我们可以得到色泽的信息增益
Gain(色泽) = H(X) - H(X|Y) = 0.109
注意,这里是按照文章中公式来算的,跟树中的计算方法有点出入,除了要明确好x和y代表的意义,还要仔细计算好每一个公式,每一个概率。
一般情况下,大多不会用定义的公式,而是求得H(X) - H(X|Y)以后,得到信息增益的。
小结:
五、代码实现
实现一
根据上面的公式,定义一个熵函数,条件熵函数,交叉熵函数即可。
实现二
在计算方面,其中条件熵还可以从这个角度计算:
即认为X确定为x1时,Y此时的熵,再乘以此时X=x1的概率p1。
比如,西瓜书中,当X为青绿时,有6个样例,Y此时对应6个标签中3个正例3个负例。计算得到Ent(D1)以后再乘以p1。
代码上实现上参考这个python 计算信息熵和信息增益
其中一段代码:
#这段是基于numpy的计算
import numpy as np
def calc_ent(x):
"""
calculate shanno ent of x
"""
#用set加count的方法,避免了用字典的操作。但是在大数据集中,可能并不合适
#此时x_list中只有单个元素,可以用于与下面的count方法配合,求得概率
x_value_list = set([x[i] for i in range(x.shape[0])])
ent = 0.0
for x_value in x_value_list:
#下面用了numpy中索引的方法x[x == x_value],返回x数组中等于x_value的数,有多少,返回多少
#比如,x = np.array([1,1,0,2,3]),那么x[x == 1]就返回数组类型[1 1]
#
#下面这行代码的意思,就是求x=1的概率,shape[0]获得数组的长度,2/5
p = float(x[x == x_value].shape[0]) / x.shape[0]
logp = np.log2(p)
ent -= p * logp
return ent