p110~p124 世界的不确定性 信息熵 信息论
不确定性在我们的世界里无处不在,我们经常可以看到这样一种怪现象:专家对未来的各种预测是错,这在金融领域尤其常见。
不确定性来自两个方面。首先是当我们对这个世界的方面了解得越来越细致以后会发现,影响世界的变量其实非常多,已经无法通过简单的办法或者公式算出结果,因此我们宁愿采用一些针对随机事件的方法来处理它们。
不确定性的第二个因素来自客观世界本身,是微观世界的一个特性,也是宇宙的一个特性。
在宏观世界里,行星围绕恒星运动的速度和位置是可以计算得很准确的,但是在微观世界里,电子在围绕原子核做高速运动时,我们不可能同时准确的测定出它在某一时刻的位置和运动速度。 这并非我们的仪器不够准确,而是因为这是原子本身的特性。
在量子力学中,有一个测不准原理,也就是说像电子这样的基本粒子的位置的测量误差和动量误差的乘积不可能无限小,这与机械思维所认定的世界的确定性是相违背的。
(我们无法同时测正电子的位置和动量,只能计算出它们的分布,因此,电子就如同散布在原子核之外的云,也被称为电子云)
对于股票的操作也类似,当有人按照某个理论买或者卖股票时,其实给股市带来了一个相反的推动力,这导致股市在微观的走向和理论预测的方向相反。
在概率论的基础上,克劳迪·香农博士建立起一套完整的理论,将世界的不确定性和信息联系了起来,这就是信息论。
信息论最初是通信的基础理论。
信息和数据有直接的联系,但是又不能直接用数据量来表示信息,因为大家都明白,看似大量却不断重复的数据,其实里面的信息量是很少的。
那么应该如何度量信息呢?直到1948年,克劳迪在他著名的论文《通信的数学原理》提出了信息熵的概念,才解决了对信息的度量问题。
简单的来说是这样的,克劳迪在信息论中借用了热力学里熵的概念,他用熵来描述一个信息系统的不确定性:比如我们需要搞清楚一件非常不确定的事,就需要了解大量的信息,相反,如果我们对某事已经了解许多,那么不需要太多信息就能把它搞清楚。从这个角度看,可以认为信息量的度量就等于不确定性的多少,要消除系统内的不确定性,就要引入信息。
克劳迪的贡献在于人类上第一次量化地度量信息,并且用数学的方法将通信的原理解释清楚了。信息论不仅能极大作用在科学和工程上,而且是一种全新的方法论——信息时代的方法论是:谁掌握了信息,谁就能获取财富,这就如同在工业时代,谁掌握了资本谁就能获得财富一样。
原理?
用这种不确定性眼光看世界,再用信息消除不确定性,能够把很多智能型的问题,转化为信息处理的问题。比如下棋,每一种情况都有几种可能,却难以最终抉择,比如要识别一个人脸的图像,可以看成是从有限可能性中挑出一种,这也就把识别问题变成了消除不确定性的问题。
想接下去再了解一点,可以知道克劳迪提出了两个定律:香农第一定律和香农第二定律,这两个定律对于信息时代的作用,堪比牛顿力学定律对机械时代的作用。
香农第一定律,也称为香农信源编码定理,是现代通信的基础。“对于信息源发出的所有信息,设计出一种编码,那么编码的平均长度一定大于该信源的信息熵”。
这么来说,寻求最优的编码方法,就要使得每个信息(我们用汉字来举例)的平均编码长度,可以接近于它的不确定性(信息熵)——只要把最短的编码分配给最常见的汉字就可以。比如说常用字编码做短一点,生僻字编码做长。这种编码具有通用性,也因被Huffman给出而被称为霍夫曼编码,可以被认为是相对香农第一定律的补充。
香农第二定律,通俗讲就是信息的传播速率不可能超过信道的容量,早期我们使用电话调制解调器,然后开始用DSL,再开始用宽带电缆,最后到光纤,都是围绕着不断增加信道容量而进行的。
香农第二定律,不仅描述了通信领域最基本的规律,而且它是自然界本身固有的规律,能够解释很多商业行为:比如说想要把生意做大,一定要有足够的人脉,而现代通讯手段的本质就是以相对低廉的成本,让人们获得人脉;而媒体行业的不断进步,本质上是不断的在为企业拓宽对外连接的带宽。
关于信息论,还有一个原理必须了解,那就是最大熵原理。
大意是,当我们对未来的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。
在很多领域,尤其是金融领域,采用最大熵原理要比任何人为假定的理论更有效,因此它被广泛的用于机器学习。
最大熵原理,实际上已经不同于我们使用了几百年的“大胆假设,小心求证“的方法论,因为它要求不引入主观的假设,当然这个前提是取得了足够多的数据,否则最大熵模型只能给出一些平均值而已,而不能对任何细节进行描述和预测。
p30~p35 数学模型,数字驱动方法的基础
模型的选择不是一件容易的事情,如果一开始模型选择的不好,那么以后修修补补就会很困难。因此在过去,无论是在理论还是在工程上,大家都把主要的精力放在寻找模型上。
有了模型之后,第二步就是要找到模型的参数,以便让模型至少和以前观察到的数据相吻合。这一点在过去的被重视程度远不如寻找模型,但是它今天有了一个比较时髦的词——机器学习。
鉴于完美的模型未必存在,有人就考虑过是否能通过很多简单不完美的模型凑在一起,其他完美模型的效果呢?这个思路在现实生活中已经被用到,比如美国和苏联在设计航天器和其他武器上的理念和方法不同,苏联有大量数学功底深厚的设计人员,但是缺乏高性能的计算机和大量的数据,因此前苏联科学家喜欢寻找比较准确但是复杂的数学模型;而美国很喜欢用简单的模型来代替一个复杂的模型,这两个国家做出来的东西可谓各有千秋,但从结果上来看,似乎美国的更胜一筹。
回到数学模型上,其实只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型,这种方法被称为 数据驱动方法,因为是事先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据。
当然,数据驱动方法想要成功,除了数据量大之外,还有一个重要前提,那就是样本要非常具有代表性,这在统计学教科书里就是一句话,但是在现实生活中要做到是非常难的——这在大数据出现之前,其实都没有做得很好。