3-2.思维革命—信息论

世界的不确定性

不确定性在我们的世界里无处不在。

世界的不确定性来自两方面,首先是当我们对这个世界的方方面面了解得越来越细致之后,会发现影响世界的变量其实非常多,已经无法通过简单的办法或者公式算出结果,因此我们宁愿采用一些针对随机事件的方法来处理它们,人为地把它们归为不确定的一类。

就像掷骰子,如果能够知道色子准确的形状和密度分布、出手的力量和旋转的角速度、空气流动的速度,同时我们的计算足够精确,其实我们是能够算出色子的哪个点或者哪个面接触到桌面的。如果我们还知道桌面的弹性系数和色子的弹性系数,以及这两种材质的物理性质等因素,我们就能够算出这个色子弹起来多高、运动的方向等,最终可以算出它停下来时哪一面朝上。但是,由于这里面很多细节难以准确测量,比如出手的速度和力量,因此考虑了所有的因素后计算出来的结果也未必正确。在这种情况下,一般人干脆假定色子每一面朝上的概率都是1/6。

不确定性的第二个因素来自客观世界本身,它是宇宙的一个特性。在宏观世界里,行星围绕恒星运动的速度和位置是可以计算得很准确的,从而可以画出它的运动轨迹。但是在微观世界里,电子在围绕原子核做高速运动时,我们不可能同时准确地测定出它在某一时刻的位置和运动速度,当然也就不能描绘出它的运动轨迹了。这并非我们的仪器不够准确,而是因为这是原子本身的特性。在量子力学中有一个测不准原理,也就是说,像电子这样的基本粒子的位置的测量误差和动量的测量误差的乘积不可能无限小。这与机械思维所认定的世界的确定性是相违背的。为什么会有这样的现象存在呢?因为我们测量活动本身影响了被测量的结果。对于股市上的操作也类似,当有人按照某个理论买或者卖股票时,其实给股市带来了一个相反的推动力,这导致股市在微观上的走向和理论预测的方向相反

如果世界充满了不确定性,我们对未来世界的认识是否又回到了牛顿之前的不可知状态?答案是否定的。就拿微观世界的电子运动来说,虽然我们无法确定电子的准确位置和速度,但是能够知道它在一定时间内在核外空间各处出现的概率,因此科学家们用一种密度模型来描述电子的运动。在这个模型里,密度大的地方,表明电子在那里出现的机会多, 反之,则表明电子出现的机会少。这个模型很像在原子核外有一层密度不等的”云”,因此也被形象地称为”电子云”。

在现实生活中情况也是类似的,不论是因为数据量太大导致的不确定性,还是因为世界本身带有的不确定性,总之,世界上很多事情是难以用确定的公式或者规则来表示的。但是,它们并非没有规律可循,通常可以用概率模型来描述。在概率论的基础上,香农博士建立起一套完整的理论,将世界的不确定性和信息联系了起来,这就是信息论。信息论不仅仅是通信的理论,也给了人们一种看待世界和处理问题的新思路。

熵——一种新的世界观

信息论最初是通信的理论

信息是否能够被量化地度量?如果能,又应该怎么度量,大部分人对这个问题并不清楚。

1948年,克劳迪·香农在他著名的论文《通信的数学原理》(A Mathematic Theory ofCommunication)中提出了”信息熵”的概念,才解决了对信息的度量问题,并且量化地给出了信息的作用。同时,香农还把信息和世界的不确定性,或者说无序状态联系到了一起。

熵用来描述一个系统中趋向于恒温的程度。当这个系统完全达到恒温时,就无法做功了,这时熵最大。

在一个封闭的系统中,熵永远是朝着不断增加的方向发展的,也就是说从微观上讲,这个系统越来越无序,从宏观上看它趋于恒温。

香农在信息论中借用了热力学里熵的概念,他用熵来描述一个信息系统的不确定性。接下来香农指出,信息量与不确定性有关:假如我们需要搞清楚一件非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,那么不需要太多的信息就能把它搞清楚。所以,从这个角度来看,可以认为,信息量的度量就等于不确定性的多少,这样香农就把熵和信息量联系起来了。他还指出要想消除系统内的不确定性,就要引入信息

就是说,信息量越少,系统越不稳定,系统的不确定性越强,熵越小。

信息量的度量就等于不确定性的多少

信息论与机械思维是建立在一种确定性的基础上所截然不同的是,信息论完全是建立在不确定性基础上,而要想消除这种不确定性,就要引入信息。至于要引入多少信息,则要看系统中的不确定性有多大。这种思路成为信息时代做事情的根本方法。

反映出在信息时代的方法论:谁掌握了信息,谁就能够获取财富,这就如同在工业时代,谁掌握了资本谁就能获取财富一样。

用不确定性这种眼光看待世界,再用信息消除不确定性,不仅能够赚钱,而且能够把很多智能型的问题转化成信息处理的问题,具体说,就是利用信息来消除不确定性的问题

就是不断地把各种智能问题转化成消除不确定性的问题,然后再找到能够消除相应不确定性的信息

信息论中还有一个重要概念——互信息(Mutual Information),实现对相关性的量化度量,可以解释为什么信息的相关性可以帮助我们解决很多问题。在很多时候,我们能够获取的信息和要研究的事物并非一回事,它们之间必须”有关联”,所获得的信息才能帮助我们消除不确定性,搞清楚我们想要研究的问题。比如前面提到的王进喜的照片和大庆油田的位置、产量等情报就属于有关联。

香农除了给出对信息和互信息的量化度量之外,还给出了两个相关信息处理和通信的最基本的定律,即香农第一定律和香农第二定律。这两个定律对于信息时代的作用堪比牛顿力学定律对机械时代的作用

香农第一定律:假定有一个信息源,里面有N种信息,现在我们需要对这N种信息一一进行编码,对于信源发出的所有信息设计一种编码,那么编码的平均长度一定大于该信源的信息熵,但同时香农还指出,一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵。至于怎么才能做到,霍夫曼(Huffman)给了一个非常简单的方法——只要把最短的编码分配给最常见的信息即可。

经济学上的吉尔德定律 (Gilder’s Law),即尽量多地采用便宜的资源,尽可能节省贵的资源,与信息论中的霍夫曼编码从本质上讲是相同的。

香农第二定律,通俗地讲就是信息的传播速率不可能超过信道的容量,只有信道的容量增加了,传输率才能上去。现代通信手段的本质,就是以相对低廉的成本让人们获得人脉,而媒体行业的不断进步,本质上是不断地在为企业拓宽对外连接的带宽,使得它们做生意越来越方便。

关于信息论,还有一个原理必须了解,那就是最大熵原理。这个原理的大意是说,当我们要对未知的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。

大数据的本质

首先我们必须承认世界的不确定性,这样我们就不会采用确定性的思维方式去面对一个不确定性的世界。

大数据的科学基础是信息论,它的本质就是利用数据的量大、多维度和完备性(代表性)来消除不确定性。

关于大数据多维度的重要性问题,第一个视角是前面提及的“互信息”,为了获得相关性通常需要多个维度的信息。第二个视角是所谓的“交叉验证”,例如夏天的时候,如果我们感觉很闷热,就知道可能要下雨了。也就是说,“空气湿度 较高”和“24小时内要下雨”之间的互信息较大。但是,这件事并非很确定,因为有些时候湿度大却没有下雨。不过,如果结合气压信息、云图信息等其他维度的信息,也能验证“24小时内要下雨”这件事,那么预测的准确性就要大很多。

数据完备性的重要性,还需要介绍信息论里一个重要的概念——交叉熵,它可以反映两个信息源之间的一致性,或者两种概率模型之间的一致性。当两个数据源完全一致时,它们的交叉熵等于零,当它们相差很大时,交叉熵也很大。所有采用数据驱动的方法,建立模型所使用的数据和使用模型的数据之间需要有一致性,也就是代表性,否则这种方法就会失效,而交叉熵就是对这种代表性或者一致性的一种精确的量化度量。

在过去,使用任何基于概率统计的模型都会有很多小概率事件覆盖不到,这在过去被认为是数据驱动方法的死穴。很多学科把这种现象称为“黑天鹅效应”51。在大数据出来之前,这件事是无法避免的,不论统计数据量多大,都会有漏网的情况。这些漏网的情况反映到交叉熵时,它的值会达到无穷大,也就是说数据驱动方法在这个时候就失效了。

怎样才能防止出现很多漏网的情况呢?这就要求大数据的完备性了。在大数据时代,在某个领域里获得数据的完备性还是可能的。比如在过去把全国所有人的面孔收集全是一件不可想象的事情,但是今天这件事情完全能做到。当数据的完备性具备了之后,就相当于训练模型的数据集合和使用这个模型的测试集合是同一个集合,或者是高度重复的,这样,它们的交叉熵近乎零。在这种情况下,就不会出现覆盖不了很多小概率事件的灾难。这样数据驱动才具有普遍性,而不再是时灵时不灵的方法论

从因果关系到强相关关系

逻辑推理能力是人类特有的本领,给出原因,我们能够通过逻辑推理得到结果。在过去,我们一直非常强调因果关系,一方面是因为我们常常是先有原因,再有结果,另一方面是因为如果我们找不出原因,常常会觉得结果不是非常可信。比如在过去,现代医学里新药的研制,就是典型的利用因果关系解决问题的例子。在整个青霉素和其他抗生素的发明过程中,人类就是不断地分析原因,然后寻找答案(结果)。当然,通过这种因果关系找到的答案非常让人信服。

按照因果关系,研制一种新药需要很长的时间、很高的成本。如今,有了大数据,寻找特效药的方法就和过去有所不同了

美国一共只有5000多种处方药,人类会得的疾病大约有一万种。如果将每一种药和每一种疾病进行配对,就会发现一些意外的惊喜。比如斯坦福大学医学院发现,原来用于治疗心脏病的某种药物对治疗某种胃病特别有效。当然,为了证实这一点需要做相应的临床试验,但是这样找到治疗胃病的药只需要花费3年时间,成本也只有1亿美元。这种方法,实际上依靠的并非因果关系,而是一种强关联关系,即A药对B病有效。至于为什么有效,接下来3年的研究工作实际上就是在反过来寻找原因。这种先有结果再反推原因的做法,和过去通过因果关系推导出结果的做法截然相反。无疑,这样的做法会比较快,当然,前提是有足够多的数据支持。

只要利用数据找到事物间的强关系,即使我们不知道原因,也可以直接应用这个结果。

小结

机械思维曾经是改变了人类工作方式的革命性的方法论,并且在工业革命和后来全球工业化的过程中起到了决定性的作用,今天它在很多地方依然能指导我们的行动。如果我们能够找到确定性(或者可预测性)和因果关系,这依然是最好的结果。但是,今天我们面临的复杂情况,已经不是机械时代用几个定律就能讲清楚的了,不确定性,或者说难以找到确定性,是今天社会的常态。在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。大数据思维和原有机械思维并非完全对立,它更多的是对后者的补充。在新的时代,一定需要新的方法论,也一定会产生新的方法论。

机械思维是靠找到确定的原因,推导结果。

大数据思维则是靠庞大的、强关联的数据直接找到结果然后应用,可以不用管其中的因果关系。

利用信息消除不确定从而创造价值的例子

我想到是抖音快手等视频软件的兴起,软件后台会收集用户的喜好习惯,综合点击率、点赞率、观看时长等等信息,定向为用户推荐喜欢的视频,使用户可以一直不自觉的观看使用。

我作为用户,也确实觉得抖音快手简直就是时间黑洞,点进去就出不来了,因为它太了解自己了,总能吸引着我们点开一个又一个的视频,为了不受它影响,我只能果断卸载,慎重远离。

刷短视频越来越来成为多数人的日常,可以想象它将会收集到多么庞大的数据信息,足以媲美先前的谷歌,支付宝,微信等,也许会有想象不到的爆点。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容