《大数据时代》这本书是著名的学者舍恩伯格和库克耶所著的一本关于大数据的专著。舍恩伯格多年来一直致力于网络经济、信息与创新、信息监管、网络规范与战略管理的研究,他是最早洞见大数据研究的学者之一,担任多个国家的顾问,曾经参与了多个国家互联网政策的制定。
《大数据时代》这本书通过介绍大量的大数据应用案例,主要论述了大数据时代生活、工作和思维的变革,重复的论述了大数据时代的三个特征:一是随机抽取的少量数据将会被全面数据、完整数据和系统数据所取代;二是效率将会取代绝对的精确性;三是相关关系将会取代因果关系。书本同时对大数据时代所带来的隐忧做了相关分析和未来的发展趋势作了相关分析。
“世界的本质就是数据,大数据将开启一次重大的时代转型。”
作者之所以写世界的本质是数据,是因为舍恩伯格把一切事物都当做是数据或者说可以用数据来表达。而之所以说大数据将开启一次时代转型,是因为互联网在逐渐成熟发展的今天,大数据将成为现代社会基础设施的一部分。
“随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据情况下的选择,它本身存在许多固有的缺陷。”
作者在书中分散的解释了随机采样的缺陷:样本的随机性相对样本数量更加重要,但随机性却又难以保证;随机采样不适合考察子类别的材料;随机采样的调查结果缺乏延展性,不可以重新分析以实现计划之外的目的;随机采样忽视了细节考察。
采样分析是信息缺乏时代和信息沟通受限制时的模拟数据时代的产物,其产生的原因是由于人们更加倾向于利用少数数据获得关于整体的情况,是我们制度、处理过程优化和激励机制下的产物。
“大数据时代开启了一场寻宝游戏,而人们对于数据的看法以及对于由因果关系向相关关系转化时所释放的潜在价值的态度,正是主宰这场游戏的关键。”
大数据时代,数据的无处不在,数据的存储、分享和挖掘工具也已经相对成熟,同时大数据将改变新一轮的创业方向、商业模式和投资机会,这种更加以结果为导向而忽视原因的东西更加适应相关关系,而非因果关系。有时候知道是什么就够了,没必要知道为什么。
“当我们说人类是通过因果关系了解世界时,我们指的是我们在理解和解释世界各种现象所使用的两种基本方法:一种是通过快速、虚幻的因果关系,还有一种就是通过缓慢、有条不紊的因果关系。大数据之间的关系将会改变他们扮演的角色。”
绝对的因果关系是不存在的,只不过是人们一厢情愿的结果。不管是快速还是缓慢的因果关系,大数据时代都不在实用,而从因果关系到相关关系的思维变革才是大数据的关键,建立在相关关系分析法的预测才是大数据的核心。
“大数据时代,告知与许可这个经过了考验并且可信赖的基石,要么太狭隘,限制了大数据潜在价值的挖掘,要么太空泛而无法真正地保护个人隐私。”
在真正理解这计划之前,需要了解大数据对现代社会所带来的负面影响,尽管书中作者援引了大量大数据的实际应用,但却无法逃避事物的双面性。大数据使得监控变得简单、成本低廉;运用大数据预测来判断和惩罚人类的潜在行为,这是一种镀公平公正以及自由意志的一种亵渎,同时也轻蔑了决策过程中深思熟虑的重要性;大数据的分析错误所带来的风险比其他风险可能更大;大数据的价值更多在于二次利用,由此带来的规避隐私权等问题令人颇为担忧。
作为通常所用的告知与许可,其实是一种近似欺骗的行为。其实是无法真正保护个人隐私的,如果真的能够保护,那么为什么那没多应用软件为什么还有搜集与其并无多大关系的数据呢?其实除了告知与许可,还有匿名化和技术中的模糊化处理这些对于数据都是天方夜谭。那么是否存在真正解决方法呢?作者提出让数据使用者承担责任,建立全新的制度规范,技术的“差别隐私”等建议。
“大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的办法和答案还在不就的未来。”
尽管大数据帮助我们预测未来,但是人类自身的作用不可替代,不论是构建存储、分析和分享的数据系统,还是建立制度规范或其它都有人的参与。尽管机器的自我学习正在日新月异的跟进之中。
“因果关系是关于人在宇宙中的位置以及在喧嚣混乱、不可理喻的世界寻找意义这一永恒争论的一部分。”
既使大数据时代强调相关关系,但正如作者分析大数据未成熟时代的因果关系所强调的,人们的理性思维和自由选择是无法被取代的,穷尽真理与时常思考是人之所以为人的存在理由之一。
“人类独有的弱点、错觉、错误都是十分必要的,因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。偶尔也会带来屈辱或固执的同样混乱的大脑运作,也能带来成功,或在偶然间促成我们的伟大。这提示我们应该乐于接受类似的不准确,因为不准确正是我们之所以为人的特征之一。”
敢于接受世界的不确定性,敢于接受不准确是一种智慧,既然弱点错误错觉都是一种经历,则我们只要努力也会碰到创造力和直觉。