人工智能通识-科普-信息熵和信息量

欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】
【汇总】2019年4月专题


信息论中的熵如何度量的?

信息论之父克劳德香农Claude Shannon

信息熵和信息量

信息是否可以有统一的度量标准?
当你收到两条不同信息的时候,是否有方法可以度量那一条包含更多内容?

信息论之父克劳德香农Claude Shannon对这一切给出了数学量化方法,提出信息熵和信息量的概念。

同热力学中熵的概念一致,信息熵也是用于表现系统的无序随机程度。

硬币只有正反两面,随机投掷后落地只有两种可能;而骰子有六种可能。所以随意投出的投资比随意投出的硬币具有更多的随机性,或者说硬币的确定性更多一些。

  • 信息A:骰子落地显示5点。
  • 信息B:硬币落地正面向上。

明显的,信息A的信息量更大,因为它消除了另外5种可能;而信息B则只消除了另外一种可能。

当一条信息出现的时候,也意味着背后的随机性的消失。信息熵是对系统背后所有随机可能性的度量,信息量是指特定信息能够消除多少随机性(熵)。

信息熵和信息量之间的关系是什么?

特定信息的出现都是有概率的。比如说“硬币落地正面朝上”这个信息的概率是1/2,而“骰子落地显示5点”这个信息的概率是1/6。

以骰子来看,每个点数的信息都可以消除另外5种随机可能,那么我们把这些信息量相加就得到了所有可以被消除的熵的总和,但需要注意的是,每个点数都只有1/6概率出现,所以我们还需要乘以这个概率,那么我们就得到:

H(X)=\sum _{x \in U }P(x)h(x)

其中:

  • H(X)表示系统X的信息熵;
  • U是系统X所有肯能的集合;
  • P(x)表示信息x发生的概率,例如“骰子落地显示5点”这个信息的发生概率是1/6;
  • h(x)表示信息x所携带的信息量;

信息量

以上的信息熵公式中的信息量h(x)如何定义?

首先这是纯粹由人来设定的含义,应该方便于表达和计算。克劳德香农主要考虑到信息量应该具有以下特征:

  • 发生概率越高的事件,信息量越小,信息所携带的信息量和概率成反比,即h(x)=m*1/P(x)。“硬币正面朝上”这个信息要比“骰子出现5点”所蕴含的信息少,对于“太阳是从东方升起的”这样完全确定的废话包含的信息应该是0.
  • 信息量不可能是负的,不能因为你得到了一个新的信息,反而知道的更少了。
  • 信息量应该是可以累加的,如果两个信息互相独立,比如“A:投出点数不是4”,“B:投出点数不是3”,这两个信息的信息合并成为一个信息后,如“C:投出的点数既不是4也不是3”,那么它的信息量应该等于前两者之和,即:h(C)=h(A)+h(B)。

我们知道,多个事件叠加的结果需要概率相乘,比如两个骰子,“A:其中一个投出6点”,“B:另一个投出5点”,那么叠加后“C:一个投出6点,另一个投出5点”,对于概率应该是P(C)=P(A)·P(B),这里C事件出现的概率是1/6乘1/6等于1/36。

矛盾出现了,h(x)和1/P(x)成正比,但是又要满足h(x_1,x_2)=h(x_1)+h(x_2)P(x_1,x_2)=P(x_1)·P(x_2),这可能吗?

可以的,香农经过数学推理之后得到结论,信息量必须是可能性P的倒数的对数:

h(x)=\log{\frac {1}{P(x)}}

这里的对数log的底数可以是10或自然对数e或者任意数字,但在香农的信息论中都使用2。

那么对于“硬币正面向上”这个信息,它的信息量就是log_22=1,这个也是香农设定的信息量单位,也叫香农单位,其实也对应了1比特。

而对于四种平均随机可能的情况,每一种的信息量就是log_24=2,对应2比特的信息量。

骰子的每种情况的信息量是log_26=2.585,可以是小数。

这个信息量公式的另一种表达方式是改为:

h(x)=-\log P(x)

所以整体信息熵的计算公式就是:

H(X)=\sum _{x \in U }P(x)\log{\frac {1}{P(x)}}

或写作:
H(X)=-\sum _{x \in U }P(x)\log P(x)

按照这个公式计算扔硬币系统的信息熵是1/2\times 1 +1/2\times 1 =1,而四种可能性的随机系统的信息熵是(2\times \frac{1}{4})\times 4=2,骰子系统的信息熵是(2.585\times \frac{1}{6})\times 6=2.585

很明显,系统的信息熵和单条信息量是相等的。但请注意,这里存在一个前提,那就是:此条信息必须能够让系统变得完全确定。对于“骰子投出的点数大于3”这样的信息就不可以简单的用这样的算法来计算。

如果一条信息能够消除系统所有的不确定性,那么它所蕴含的信息量与整个系统的信息熵一样多。

硬币和骰子和四种可能的例子几乎都是所有事件(每条信息)的发生概率相等的情况,对于更复杂的情况我们将在后面的文章中继续讨论。


欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】


每个人的智能新时代

如果您发现文章错误,请不吝留言指正;
如果您觉得有用,请点喜欢;
如果您觉得很有用,欢迎转载~


END

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,427评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,551评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,747评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,939评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,955评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,737评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,448评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,352评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,834评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,992评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,133评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,815评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,477评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,022评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,147评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,398评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,077评论 2 355