信息熵

信息熵的定义

信息熵通常用符号 H(X) 表示,其中 X 是一个随机变量。对于一个离散随机变量 X,其可能的取值为 \{x_1, x_2, \dots, x_n\},对应的概率分别为 \{p_1, p_2, \dots, p_n\},信息熵的数学定义为:

H(X) = -\sum_{i=1}^{n} p_i \log p_i

其中,对数的底数可以根据实际需要选择,常用的底数是2(单位是比特,bit)、自然对数 e(单位是奈特,nat)或10(单位是哈特,hart)。


信息熵的直观理解

  • 不确定性越高,熵越大:如果一个随机事件的结果完全不可预测(比如一个完全公平的六面骰子),那么它的熵会很高,因为包含的信息量也很大。
  • 确定性越高,熵越小:如果一个事件的结果几乎可以确定(比如一个100次中有99次会正面朝上的硬币),那么它的熵会很低,因为包含的信息量很少。
  • 极端情况
    • p_i = 1(某个事件一定会发生)时,熵为0,因为没有任何不确定性。
    • 当所有事件的概率相等时(如公平的骰子),熵达到最大值。

信息熵的意义

  • 衡量信息量:信息熵可以量化一个随机变量所包含的信息量。熵越高,说明变量包含的信息越丰富。
  • 数据压缩:在数据压缩中,信息熵可以帮助我们确定数据的可压缩性。如果熵很高,说明数据中包含大量随机性,压缩难度较大。
  • 通信理论:在通信系统中,信息熵用于衡量信道的容量和信息传输的效率。
  • 机器学习:在决策树算法中,信息熵用于评估特征的分裂效果,帮助选择最优的特征进行数据划分。

一个简单的例子

假设有一个硬币,正面朝上的概率是 p,反面朝上的概率是 1 - p。那么这个硬币的信息熵为:

H(X) = -p \log p - (1 - p) \log (1 - p)

  • p = 0.5(公平硬币)时,熵达到最大值 H(X) = 1 比特。
  • p = 1p = 0(完全确定)时,熵为0。

信息熵是信息论的核心概念,它为我们理解和处理信息提供了一个数学工具,广泛应用于通信、数据处理、机器学习等领域。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,576评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,515评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,017评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,626评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,625评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,255评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,825评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,729评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,271评论 1 320
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,363评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,498评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,183评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,867评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,338评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,458评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,906评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,507评论 2 359

推荐阅读更多精彩内容

  • 香农-信息论领域的牛顿 香农一生发表的文章并不多,但是篇篇都是精品。Amethematical theory of...
    武耀文阅读 1,848评论 0 0
  • 本篇内容主要讲清信息与熵的概念,为EM算法打下基础。 信息:i(x)=-log(p(x))如果说概率p是对确定性的...
    白熊S阅读 1,173评论 0 0
  • 中文是熵, /shāng/。下面是个简单科普: 是一种测量在动力学方面不能做功的能量总数,也就是当总体的熵增加,其...
    Kaiweio阅读 1,176评论 0 0
  • 信息论交叉熵是信息论中的一个概念,要想了解交叉熵的本质,需要先从最基本的概念讲起。 1 信息量首先是信息量。假设我...
    水球喵阅读 464评论 0 0
  • 介绍 信息的基本作用就是消除人们对事物的不确定性。信息熵,可以理解为信息的不确定程度,信息的不确定程度越大,信息熵...
    郑小才阅读 2,562评论 0 1