大数据时代:生活、工作与思维的大变革
Big Data:A Revolution That Will Transform How We Live, Work, and Think
作者:[英] 维克托·迈尔·舍恩伯格
出版年: 2012-12
写在前面
1、关于读这本书的动机和读完之后的第一感触
- 今后的工作将要和大数据打交道,hello big data. 接触了一点hadoop之后,拿起这本书读一读,读完后对大数据时代下新思维、趋势有了很震撼的认识。
- 迁移:在接触某领域技术之前,应该先在技术层面对该项技术有大体上的了解,紧接着去了解相关的技术背景,再回到具体的技术学习,这对技术的掌握和学习有很大的帮助。不直接从技术背景入手,是因为技术背景中会涉及诸多技术层面的理论知识,受其他知识的影响,可能会存在误解的风险,不利于正确把握;另一方面,对技术有初步印象以后,再次回到技术学习,会加深对技术的发展、趋势、价值意义等方面的理解;这是一个相辅相成的过程。
2、三个核心的思维转变
- 要全体不要抽样
- 要效率不要绝对精确
- 要相关不要因果
3、大数据的核心——预测
笔记和摘录
第一部分:思维变革
1、大数据将逐渐成为现代社会基础设施的一部分
如果认同世界的本质就是数据,那么大数据将在多个领域和学科门类引起变化和发展,进而影响人类的价值体系。
2、越是万能的,就越是空洞
大数据是一个概念,可以运用在多个领域,但不要将其当做一种放之四海而皆准的万能概念,这应该是人们面对一个新领域或新概念是应有的态度。
某些观念有事会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以,它们似乎将有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可以用来构建一个综合分析体系的概念核心。这种“宏大概念”突然流行起来,一时间把几乎所有东西都挤到了一边。 ——Susan Langer 《哲学新视野》
3、大数据是什么
大数据并不是一个确切的概念。
最初,大数据这个概念指需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量,因此工程师们必须改进数据处理工具,这催生了类似Google的MapReduce、Hadoop这一类技术的诞生和发展,使得可以被处理的数据量大大增加,消除了只能处理格式化数据的限制,摆脱了大数据处理必须依赖于大型机的限制。
今天,大数据是一种方式,这种方式可以在大规模数据的基础上完成一些在小规模数据上无法完成的事情;大数据是人们获取新的认知、创造新的价值源泉、改变市场、组织机构以及政府与公民关系的方法。
4、大数据的核心是什么
预测。把数学算法运用到海量数据上来预测事情发生的可能性。
5、大数据时代的思维变革1——更多:不是随机样本,而是全体数据
样本=总体
随机采样只是统计上的一个捷径,当收集和分析全部数据不现实的情况下选择,它本身有很多固有的缺陷。随机采样不适合考察子类别,一旦要在随机采样的数据中继续细分,将导致非常大的不精确。
随机采样就像是模拟照片打印,远看很不错,但是一旦聚焦到某个点,就会变得模糊不清。
这就导致了随机采样的调查结果不具有延展性,调查出的数据不可以重新分析以实现计划之外的目的。
大数据不采用随机采样这样的捷径,而是采用分析所有数据的方法。技术的进步和创新,提高了数据采集的能力和效率,使得处理所有数据成为可能。
6、大数据时代的思维变革2——更杂:不是精确性,而是混杂性
允许不精确,放松了容错标准,提高了容错能力:允许有噪声数据、对非格式化的数据进行数据清洗等。
大数据抵消了错误数据带来的不精确:
大数据通常用概率说话,而不是板着“确凿无疑”的面孔。真个社会都适应这种思维需要很长的时间,其中也会出现一些问题。但现在,有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。
据估计,只有5%的数字数据是结构化且适用于传统数据库。如果不接受混乱,剩下的95%非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打来了一个未涉足的世界的窗户。
7、大数据时代的思维变革3——更好:不是因果关系,而是相关关系
建立在相关关系分析法上的预测是大数据的核心,我们通过大数据分析得到的是“是什么”(相关关系),而得不出“为什么”(因果关系)的结论。
通过大数据分析,寻找事物、数据之间的关联性来分析现象,而不是揭示其内部机制。往往通过大数据得出的结论只是一个可能性预测,而不知道其背后的原因。
- 大数据可以为我们寻找关联物,我们理解世界不再需要建立在假设的基础上
相关关系的两端是两类被关联的事物,二者具有相关性(正相关、负相关或者更复杂的数理关系)。
在大数据时代以前,相关关系用的非常少。因为数据很少而且收集数据很费时费力,所以统计学家们喜欢找个关联物(这是基于假设的,具有很大的盲目性),然后手机与之相关的数据进行相关关系分析来评测这个关联物的优劣。这是一个繁琐的过程,只适用于小数据时代。
在大数据时代,关联物不需要再“被选择”,即不需要人工选择一个关联物或者一小部分相似数据来逐一分析了。通过机器学习,我们可以辨别出具有最相关关系的两个关联物,以及在关联物之间建立合适的数学模型。
通过找出一个关联物并监控它,我们就能预测未来。
- 关于因果关系是否存在的哲学争论
这个争论在哲学界已经持续了几个世纪。毕竟,如果凡事皆有因果的话,那么我们就没有决定任何事的自由了。如果我们做的每一个决定或者每一个想法都是其他事情的结果,而这个结果又是其他原因导致的,以此循环往复,那么就不存在人的自由意志这一说了——所有的生命轨迹都只是受因果关系控制了。因此,对于因果关系在世间所扮演的角色,有时被认为是与自由意志对立的。