读《智能时代》
一、大数据的本质是什么?
1、认识现象、数据、信息、知识的基本概念
(现象是客观存在的世界)
数据的范畴是随着文明的进展不断变化的,在计算机出现以前,数据=数字,在今天,文字、语音、图片、视频都是数据,并且以这些基础数据元素承载着信息科技产业里最重要的数据——信件、电话、邮件、照片、电视网页以及以及社交产品里用户产生的内容,面向未来,数据的范围还在扩大,我们每天的行为活动、社会关系等也是数据,数据无处不在。(结合信息的定义来看的话,数据的范围被放大了,一定程度上有信息的成分,比如信件就是用来传达信息的。)
信息是对世界、人或事的描述,比数据抽象,数据是信息的承载体,信息可以是人创造的,也可以是天然存在的事实(作者举例地球的面积和质量)。信息中包括着有用数据和无用数据,剔除无用数据,获取有用数据,并发现其背后的信息的能力是不断增强的。
知识比信息更抽象,更系统,通过信息总结出知识,它是人的认知的又一升级。从数据到知识的过程,是通过观察形成数据,分析数据承载的信息,建立模型并不断进行数据验证的过程。为了说明数据到知识的过程,作者用历法的发展及天文学的发展过程来说明数据到知识的形成过程。(知识是人认识世界的一般性结论,在数学家眼里,模型就是知识,或者说找到模型,就完成从数据到知识的过程。在这个过程里,知识是随着人的认知不断升级的,所以,对待知识的态度是认识但不迷信。形成知识的过程是不断追问本质,在教育孩子的过程中,通过提问引导思考,避免粗暴传递自以为是的知识)
认识了现象、数据、信息、知识的基本概念之后,如何使用数据?
2、使用数据的相关性获取信息
相关性是使用数据(间接获取信息) 的有效手段,尤其是在无法直接获取信息时,如果发现两类数据之间的极大相关,可以获得相对准确的认识。
认知世界,很多时候,我们无法直接获得对事物的准确认识(一手信息),但是可以通过相关性间接获取相对准确的信息(通过几个事件相互佐证的信息,或者从一件事严密推理出其他信息)。这种相关性,一般也是先假设或者想象吧(科学有时就是源于想象) 然后再进行验证。
3、统计学,点石成金的魔棒
统计学是建立在概率论基础上的,通过收集数据、分析数据、找到数据内在的关联性和规律性的学科。统计学对输入的数据有量和质的要求,要得到准确的结果,样本的数量要尽量大,样本要具有代表性。如果这两个条件不满足,统计结果常常出错。
我理解大数据可以看着统计学的延伸,或者可以认为大数据是统计学在量和质上的变化。
统计学是找数据内在规律,那么数学模型则是要建立起数据之间的确定性的关系。
4、数学模型是数据驱动方法的基础
理论上只要有足够多的具有代表性的样本数据,就可以运用数学找到一个或者多个模型,科学家们就是这么做的。但是他们形成知识有两种情况,一是建立起严格的复杂的精确模型,用已有少量数据对模型进行验证。二是先有大量的数据,然后用多个简单模型去契合数据,并在数据使用过程中不断优化模型,后者就是数据驱动方法。数据驱动方法是大数据的基础也是机器智能的核心,还是一种新的思维方式。AlphaGo就是在总结了几十万棋盘的数据后,得到了统计模型,这是典型的数据驱动方法的应用。
数据驱动方法是机器智能的核心,机器智能是怎么来的?