其实是很久很久之前就应该看的一本书,放在“想读”中,最近终于花了几天时间看完。作者在文中的观点集中在五个方面:
一、大数据带来公共卫生、商业、思维的变革,开启重大的时代转型,而预测是大数据的核心
作者举了谷歌预测流感的快速有效性、机票价格趋势预测网站这两个例子。介绍了随之而来的hadoop大数据处理技术,同时通过各行业的例子说明了当今时代,数据增速超过以往任何一个时代,海量数据将会最终产生质变,改变这个时代。大数据的核心运用体现在对现状的判断,对将来事物的预测。预测我们需要什么,喜欢什么。
二、大数据的思维变革主要体现在
1. 我们有能力去采集和处理海量的数据,因此我们可以跳出传统的抽样统计分析方法,转而对全部的海量数据进行分析
让数据“发声”:依靠全量的所有数据,而不仅仅是一小部分样本。
曾经我们没有大量数据的收集和分析能力,不得不采用抽样以及统计学的方法来做分析(笔者:事实上,即使在当代,也仍然有很多复杂的案例无法收集到全量数据),抽样的精确度与抽样的随机性明显相关,因此抽样时的随机性比抽样的样本大小更重要。但抽样本身有许多固有的缺陷,比如不能了解细分领域的情况——因为抽样必须保证随机性,比如抽样只能按照事先设计的问题去做针对性的调查——而不能随时解答突然发现的新问题。
大数据本身的概念就是指不需要依赖于随机分析而采用所有数据的方法,比如在信用卡交易中,异常值是我们反而要特别关注的。而且大数据还会捕捉到非常多的个体信息,这些个体信息可能揭示了某种特征,而这是抽样方法所无法捕捉到的
2. 数据纷繁混杂,我们无法苛刻地去追求数据的标准化和精确性,而需要去接受数据的不精确性
一定程度上来说,大数据的混杂性是我们不得不接受的结果,大量的数据是非结构化的。但是包含不精确的极大量的数据,仍然能够给我们提供相比于精确标准的“小数据”更多的信息。大数据的简单算法也比小数据的复杂算法更加有效(此处举了谷歌翻译的例子)。而错误的数据也许同样可以给我们提供价值。另外混杂的数据是另一种灵活的途径,比如我们在facebook上的标签,不会也不可能有某几种固定的分类。
混杂的数据也推动了数据库的变革,从传统的结构化数据化转而出现众多非结构化的数据库。
笔者:事实上即使在抽样数据中我们也必须忍受数据的混杂性。我们从来不应该奢望以任何数据得出的结论是精确的,一切都需要在误差范围内进行决策
3. 大数据更关心相关关系而不再局限于因果关系,我们只要知道“是什么”而不需要追求“为什么”,就能帮助我们做出有利的决策
相关关系的核心是量化两个数据值之间的数理关系,但是相关关系不会解释内部的运作机理,相关关系没有绝对,只有“可能性”。它可以帮助我们捕捉现在以及预测未来,经典的沃尔玛飓风和蛋挞例子表明我们只需要知道“是什么”就可以作出决策。建立在相关关系分析法基础之上的预测是大数据的核心,通过找出一个相关的关联物并监控,就能预测未来。
笔者:事实上人类是惯性于探寻因果关系的。而且在很多可行的情况下我们仍然要去分析为什么。因为“数据可能撒谎”,我们需要结合严密的逻辑和正确的思维方向去探索真正的原因,才能自由运用数据。
三、大数据时代的商业变革主要体现在
1. 一切事物皆可量化、数据化,只要有数据化思维,一切不可能产生数据的地方都可以提取出数据
莫里从老航海家的日志里发现了历史的航海数据,并通过联合大量的商船互通数据的方式不断更新,以及通过发生事故后的修正,制作了航线分析系统。日本汽车公司将司乘驾驶座位的各点位压力数据测量并分析,监控汽车是否被盗或者汽车是否发生了事故。作者还特意强调了数字化和数据化的区别。数字化是指将模拟数据转换成电脑可识别的形式,而数据化则是指转变为可用于分析的量化形式。比如扫描的文字是一幅幅图像,仅实现了书籍的数字化,而将这些图像转变成每个文字可识别的电子书,才是真正的数据化。数字化带来了数据化,但数据化才是核心。文字、方位、甚至沟通(社交图谱),只要有想象,一切事物都可以变成数据
2. 数据是取之不尽用之不竭的资源,可以二次创新,可以再利用,可以扩展
为了打击作弊软件,发明了验证码,而后通过验证码为不可识别的单词确认正确与否实现了数据的二次利用。数据的价值没有互斥性,不会因为被使用多少次而减少。而数据的潜在价值实际上无法估计,因此对数据使用的许可其实无法一步到位,因为谁都无法完全预知这些数据将被如何使用。
3. 目前数据相关的商业模式是数据所有者(数据提供方)、数据技术提供方、数据思维提供方(解决方案咨询)三足鼎立的局势,最有价值的是数据所有者和数据思维
所谓大数据思维,是指这样的一种意识,认为公开的数据一旦处理得当,就能为许多人急需解决的问题提供答案。谷歌和亚马逊是数据、技能和思维三者兼备的企业。
4. 大数据决定了企业竞争力,行业经验丰富的专家将逐渐消失,而数据科学家将崛起
数据科学家可以不受行业旧观念的制约,能够认真聆听数据发出的声音。行业专家并非真正消亡,但是他们的主导地位会发生改变。专业经验只适用于我们对数据的掌握不够多的“小数据时代”,那个时代的经验是先决的,是潜意识里知识的积累。而海量数据时代我们可以挖掘更多。
四、大数据对管理变革提出了挑战,隐私和数据独裁需要引起重视
即使对个人关键信息进行脱敏(匿名)处理,多数据来源的交叉验证也能轻易定位到具体的个人。作者同时提出了一个警示:我们是否能够因为预测某人将要犯罪就将他逮捕?
数据独裁是指执迷于数据从而导致过于依赖数据,但实际上数据可能远不如我们所想象的那么可靠。数据可以作假。只有合理利用数据而不单纯是为了“数据”而“数据”,大数据才会变成强大的武器。
大数据的运作过程有成为“黑盒子”的风险,不透明、不可解释、不可追踪,超出我们正常理解的范围,因此需要内部或外部的专门化的算法师来监测并保持透明度。
附:
谷歌的图书馆:http://books.google.com/ngrams,打开 Google Naram Viewer,提供单词和短语历年使用次数的展示图表