对熵的理解

主要参考机器学习笔记十:各种熵总结

一、什么是熵

熵定义:随机变量的概率分布对应的 **信息量的平均值 ** 就叫做随机变量的熵。

可见,为了理解熵,需要先理解什么是信息量

1.1 信息量

首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢?
我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,
比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是要是一件平时觉得不可能发生的事情发生了,那么我们接收到的信息要大得多.因此,我们对于信息内容的度量就将依赖于概率分布p(x).

一句话总结:概率越小的事件发生时,带来的信息量越大。

因此我们寻找一个函数,能够体现这句话的含义,于是有单调递减函数

函数图像如下所示:

注意一般是以2为对数的底。

若是称I(x)为自信息量,那么根据其中x的不同,根据概率中的联合概率,条件概率,我们可以得到

联合自信息量

条件自信息量

1.2、熵

熵(entropy):已知信息量I(x),那么我们想要知道这整个概率分布对应的信息量的平均值.这个平均值就叫做随机变量x的熵 。

求I(x)的期望,其中I(x)是概率分布p(x)的函数,则根据定理,可以得到I(x)的期望,也就是熵:

对“信息熵的本质可以看做是某个分布的自信息的期望”这句话的进一步理解:
也就是说,熵,所求的是,这个事件的信息量的平均值。所以说,熵越大,这个事件整体所含的信息量就越大,不确定性就越高。比如,苹果一定落地,信息量就很小。苹果落到某个盒子,熵也就大了,信息量比较大,不确定性也比较大了。

需要注意的地方
  • 服从于某个分布的X的熵,等价于这个分布的熵
    因为熵只依赖于X的分布
  • 定义0log0=0,因为可能出现某个取值概率为0的情况
  • 熵越大,随机变量的不确定性就越大。

常用的例子:
X服从0-1分布,即:

则熵为:

当事件发生概率p从0依次取到1时,画出熵的图:

1.当p=0或者p=1的时候,随机变量可以认为是没有不确定性.
2.当p=0.5的时候,H(p)=1,随机变量的不确定性最大.
熵的计算公式,就是按照期望公式求概率分布的期望。

二、条件熵

2.1、联合熵与条件熵

仿照之前信息量的公式,根据联合分布与条件分布,我们可以得到联合熵(复合熵)和条件熵:
复合熵:

条件熵:

为什么要在条件概率前面再乘上以一个p(yj)?

如果以x表示学生体重,以y表示身高,以 p(x∣y)表示身高为某个特定的y时的体重为x的概率,把熵公式用到这个特殊情况得到是熵显然应当是

上面是确定的y = yj时计算得到的概率,然而y等于yj的概率是p(yj),所以在不确定y等于多少时,应该在前面乘以一个yj发生时的概率,y一共有m个取值,所以应该是m个p(yj)乘以上面式子再相加。
于是可以得到上面的条件熵。

2.2条件熵的变形

根据条件分布:

可以把上面的求条件熵的式子改成如下形式:

上面式子表明,只要你能得到联合分布和y的分布就能够求出条件熵了,不过还可以经过推导,得到更加常见的形式:

证明:

三、相对熵(KL散度)

要理解相对熵,先理解交叉熵是什么

3.1、从信息论编码长度理解交叉熵与相对熵

参考 浅谈KL散度
参考熵 相对熵 交叉熵

参考中, 把H(p,q)定义为交叉熵,跟上面的联合熵有些出入,不知道是不是定义有问题,暂时就这么认为把,区别开来。

Gibbs' inequality知,交叉熵H(p,q)一定大于熵H(p),即用用错误分布来表示真实分布的平均编码长度,一定要长与真实分布的平均编码长度。例子:

我们将由q得到的平均编码长度比由p得到的平均编码长度多出的bit数称为“相对熵”:

3.2、从信息量理解相对熵

参考一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉

在机器学习中,P往往用来表示样本的真实分布,比如样本的真是分布为[1,0,0]。Q用来表示模型所预测的分布,比如[0.7,0.2,0.1] 。

直观的理解就是如果用P来描述样本,那么就非常完美。而用Q来描述样本,虽然可以大致描述,但是不是那么的完美,信息量不足,需要额外的一些“信息增量”才能达到和P一样完美的描述。

其中,额外的信息增量就是:

机器学习就是通过反复训练,学习Q,让Q也能完美的描述样本,那么就不再需要额外的“信息增量”,此时Q等价于P。

相对熵的两个主要性质:非对称性与非负性:

参考交叉熵是否非负?
知道,离散型随机变量的熵时非负的,连续性随机变量可能为负。

3.3、相对熵的应用

3.3.1、计算文本相似度

相对熵可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵(KL散度)可以用于比较文本的相似度,先统计出词的频率,然后计算KL散度就行了。

3.3.2、在机器学习中作为损失函数进行训练

具体的一些细节,参考一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉

四、互信息、信息增益

先看定义:互信息可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。

两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。

公式是怎么得到的呢?
根据上一小节的信息熵的理解:相对熵可以看做,为了和真实分布P一样完美描述事件的额外增量

当我们知道Y的条件下,能够帮助我们判断X,此时的信息量相对为H(X|Y)。当我们不知道Y时,此时为了描述X的信息量H(X),需要多一些额外的信息量,而这里的额外增量,就是信息增益:I(X,Y)。

于是 I(X,Y) = H(X) - H(X|Y),可以得到信息增益的公式。

举例:西瓜书p75页,有对于信息增益的讲解 。
此时,我们认为X为label即[好瓜,坏瓜],色泽为Y[青绿,乌黑,浅白]。我们可以计算出在不知道Y时的H(X)为0.998,在已知Y时,H(X|Y)为0.889.于是我们可以得到色泽的信息增益
Gain(色泽) = H(X) - H(X|Y) = 0.109

注意,这里是按照文章中公式来算的,跟树中的计算方法有点出入,除了要明确好x和y代表的意义,还要仔细计算好每一个公式,每一个概率。

一般情况下,大多不会用定义的公式,而是求得H(X) - H(X|Y)以后,得到信息增益的。

小结:

五、代码实现

实现一

根据上面的公式,定义一个熵函数,条件熵函数,交叉熵函数即可。

实现二

在计算方面,其中条件熵还可以从这个角度计算:

即认为X确定为x1时,Y此时的熵,再乘以此时X=x1的概率p1

比如,西瓜书中,当X为青绿时,有6个样例,Y此时对应6个标签中3个正例3个负例。计算得到Ent(D1)以后再乘以p1

代码上实现上参考这个python 计算信息熵和信息增益

其中一段代码:

#这段是基于numpy的计算

import numpy as np

def calc_ent(x):
    """
        calculate shanno ent of x
    """
    #用set加count的方法,避免了用字典的操作。但是在大数据集中,可能并不合适
    #此时x_list中只有单个元素,可以用于与下面的count方法配合,求得概率
    x_value_list = set([x[i] for i in range(x.shape[0])])
    ent = 0.0
    for x_value in x_value_list:
        #下面用了numpy中索引的方法x[x == x_value],返回x数组中等于x_value的数,有多少,返回多少
        #比如,x = np.array([1,1,0,2,3]),那么x[x == 1]就返回数组类型[1 1]
        #
        #下面这行代码的意思,就是求x=1的概率,shape[0]获得数组的长度,2/5
        p = float(x[x == x_value].shape[0]) / x.shape[0]
        logp = np.log2(p)
        ent -= p * logp
    return ent
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335

推荐阅读更多精彩内容

  • 请听题:什么是熵?什么是交叉熵?什么是联合熵?什么是条件熵?什么是相对熵?它们的联系与区别是什么? 如果你感到回答...
    工程师milter阅读 11,822评论 5 57
  • 本系列第三篇,承接前面的《浅谈机器学习基础》和《浅谈深度学习基础》。 自然语言处理绪论 什么是自然语言处理? 自然...
    我偏笑_NSNirvana阅读 17,454评论 2 68
  • 深夜,手机上与我相关那一栏有了动态,吴小宝给我前天在空间里吐槽的事评论了。刚入大学的她给我喂鸡汤,我觉得我这...
    青青茂阅读 301评论 0 0
  • 闷热的天气,被一场大雨吹散,雨后的世界,空气是那么清新,树上的叶子那么的葱绿,心情随之大好。 这些天一直都在思考一...
    西瓜里的小人儿阅读 91评论 0 0
  • 汽车碾过甲壳虫 爆出千木的灵魂乐浆 有一个杳无人知的东方国度 在那滩街角和煦的稠密人烟里 一段生命从此离我远去 留...
    南的哲尾猫阅读 319评论 3 5