信息论简述

〇、目的

机器学习的很多算法中,越来越多的利用信息论的一些观点和结论。本文更多的是从机器学习的角度对信息论做一个简要概述。

一、信息论简史[1]

信息论是20世纪40年代后期从长期通讯实践中总结出来的一门学科,是专门研究信息的有效处理和可靠传输的一般规律的科学。

切略(E.C.Cherry)曾写过一篇早期信息理论史,他从石刻象形文字起,经过中世纪启蒙语言学,直到16世纪吉尔伯特(E.N.Gilbert)等人在电报学方面的工作。

20世纪20年代奈奎斯特(H.Nyquist)和哈特莱(L.V.R.Hartley)最早研究了通信系统传输信息的能力,并试图度量系统的信道容量。现代信息论开始出现。

1948年克劳德·香农(Claude Shannon)发表的论文“通信的数学理论”是世界上首次将通讯过程建立了数学模型的论文,这篇论文和1949年发表的另一篇论文一起奠定了现代信息论的基础。

由于现代通讯技术飞速发展和其他学科的交叉渗透,信息论的研究已经从香农当年仅限于通信系统的数学理论的狭义范围扩展开来,而成为现在称之为信息科学的庞大体系。

二、信息论意义

信息论虽然起源于通信领域,但信息论的发展和应用已超越原有的意义。

2.1、信息论是对客观世界的更进一步抽象和描述

信息是对客观世界的抽象,信息论是对信息的抽象,也就是对客观世界的进一步抽象和描述。这种抽象为科学工作者提供了一个更宏观的角度来审视信息,观察世界。

2.2、信息论对其他学科的促进

"信息论在统计物理(热力学)、计算机科学(科尔莫戈罗夫复杂度或算法复杂度)、统计推断(奥卡姆剃刀:最简洁的解释最佳)以及概率和统计(关于最优化假设检验与估计的误差指数)等学科中都具有奠基性的贡献。"[2]

信息论在经济领域、政治领域也具有重要的指导意义。

2.3、信息论是重要的方法论

此观点来源于吴军博士的著作《硅谷之谜》。信息论建立在不确定性的基础之上,我们生活中时时处处都会遇到去确定性。信息论中很多结论都可以作为我们做事的思维方式和方法论。以下会有提及。[3]

三、基本定义

3.1、熵

度量随机变量的不确定性。log一般取以2为底,量纲为比特;如果取以e为底,量纲为奈特。

3.2、联合熵

表示两个随意变量的不确定性。

3.3、条件熵

表示增加一个随机变量X的条件下的随机变量Y的不确定性。

3.4、相对熵

两个随机分布之间距离的度量。又叫K-L散度(Kullback-Leibler divergence)。

3.5、互信息

表示一个随机变量包含另一个随机变量信息量的度量。也是在给定另一随机变量知识的条件下,原随机变量不确定度的缩减量。

3.6、互信息与熵


四、重要结论

4.1、香农第一定律

其意义在于可以将信号源内的信息变成任何通信的编码,而当这种编码尽量服从等概率分布时,每个编码所携带的信息量最大,进而能提高整个通信系统的效率。霍夫曼在此定理指导下提出了霍夫曼编码[3]。

4.2、香农第二定律

有噪信道编码定理。当信道的信息传输率不超过信道容量时,采用合适的信道编码方法可以实现任意高的传输可靠性,但若信息传输率超过了信道容量,就不可能实现可靠的传输[1]。通俗地将,就是信息的传播速率不可能超过信道的容量[3]。

这是通信行业的理论基础,更是互联网思维的理论基础。

4.3、最大熵原理

热力学第二定律表明,孤立系统的熵总是不减的。所以在对一个随机事件的概率分布的进行预测时,预测应当满足全部已知的条件,这时候可以认为未知情况的信息熵最大,因为这种情况最可能和实际情况相符。

吴军博士在其著作《数学之美》中,这样表述,“最大熵原理指出,需要对一个随机事件的概率分布进行预测时,我们的预测应该满足全部已知条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要)在这种情况下,概率分布最均匀,预测的风险最小。[4]”个人认为,吴军博士的逻辑是不对的,因为先假定熵最大,再有均匀分布,当然熵最大的分布,不一定就是均匀分布。[2]

最大熵模型就是基于最大熵原理的。

4.4、信息论是大数据思维的理论基础

A、熵减原理

如上式所述,减小不确定性的有效方式是引入新的相关信息(如果不相关,则取等号)。

吴军博士在其著作《硅谷之谜》中这样描述,“不确定性在身边无处不在,不是利用公式就能预测的,消除对未来不确定性方法的唯一途径就是引入信息,这既是信息论的灵魂,也是今天所提倡的大数据思维的理论基础。[3]”

B、相关分析而不是因果分析

大数据思维,提倡相关分析,而不是因果分析。是因为数据量已经积累到一定程度,相关分析的成本比因果分析低很多,而对我们非常有用[5]。信息论跳出信息所描述的内容之间的因果关系,站在宏观的角度量化信息,研究更广泛的随机事件以及随机事件之间的关系,这与大数据的这种思维不谋而合。

五、参考

[1]、百度百科

[2]、《信息论基础(第二版)》,Thomas M.Cover等著,阮吉寿等译

[3]、《硅谷之谜》,吴军著

[4]、《数学之美》,吴军著

[5]、《大数据时代》,Viktor Mayer-Schönberger著,周涛等译

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,099评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,828评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,540评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,848评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,971评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,132评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,193评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,934评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,376评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,687评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,846评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,537评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,175评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,887评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,134评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,674评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,741评论 2 351

推荐阅读更多精彩内容

  • 昨晚刚把吴军的这本书书看完,好多内容都在他之前的《浪潮之巅》真本书中提到过了,最精华的其实是最后的控制论、系统论和...
    英天阅读 810评论 0 2
  • 本文是《硅谷之谜》的读书笔记之一,也是我认为全书最精彩的一部分。 1、维纳和控制论 控制论突破了牛顿的绝对时间观。...
    elleyes阅读 2,269评论 0 3
  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,934评论 6 13
  • 问题描述 我们知道方差表示一个值距离平均值的远近程度,如果用一个二位图表示的话,方差越大,高斯分布越“平缓”,方差...
    李欣宜阅读 7,919评论 1 10
  • 先讨论物理层的基本概念,然后介绍有关数据通信的重要概念以及各种传输媒体的主要特点,但传输媒体不属于物理层的范围。在...
    dmmy大印阅读 1,743评论 0 2