《大数据时代》的读书笔记
作 者:[英]维克托.迈尔-舍恩伯格
出版社:浙江人民出版社
版 次:2013年1月第1次出版
作者简介:
维克托.迈尔-舍恩伯格被预言为大数据时代的预言家,现任牛津大学网络学院互联网研究所治理与监管专业教授。曾任哈佛大学肯尼迪学院信息监管科研项目负责人,新加坡国立大学信息政策研究中心主任。他的咨询客户包括微软、惠普和IBM等全球顶级企业。他是欧盟互联网官方政策背后真正的制定者和参与者,还先后担任新加坡商务部高层,文莱国防部高层、科威特商务部高层、迪拜及中东政府高层的智囊。
本书的重点内容和理解:
引言:一场生活、工作与思维的大变革
1、大数据,变革公共卫生
2009年出现新的流感病毒---甲型H1N1流感病毒。当时的方式:患者到医院,医院上报疾病控制中心,疾病中心汇总数据。结果时间延迟一两个星期。谷歌:通过一定的数学模型,他们能判断出流感是从哪里传播出来的,而且判断非常及时----大数据挖掘。大数据挖掘能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。
感悟:大数据时代的到来,各国的疾病控制中心可以取消了。
2、大数据,变革商业
购买飞机票:由埃齐奥尼创立了一个预测系统---Farecast系统,此系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价。Farecast票价预测的准确度已经高达75%,使用Farecast票价预测工具购买机票的旅客,平均每张机票可节省50美元。
感悟:Farecast票价预测工具是否适合中国航空数据库,是否适合中国航空机票票价的预测。
3、大数据,变革思维
以前一旦完成了收集数据的目的之后,数据就会被认为已经没有用处了。如今数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。
感悟:根据过去的大数据,预测未来,指导我们未来的行为。
4、大数据,开启重大的时代转型
大数据的科学价值和社会价值正是体现在这里。一方面,对大数据的掌握程度可以转化为经济价值的来源。另一方面,大数据已经撼致力了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。
感悟:大数据,开启重大的时代转型。我们准备好了吗?
5、预测,大数据的核心
大数据的核心就是预测。它被视为一种机器学习。大数据是把数学算法运用到海量的数据上来预测事情发生的可能性。大数据已经成为新发明和新服务的源泉,而更多的改变正蓄势待发。
感悟:大数据挖掘算法是大数据研究的一大难题。但是不是大数据研究的核心呢?不是....
6、大数据,大挑战
三大转变:第一、大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖随机采样。第二、研究数据如此之多,以至于我们不再热衷于追求精确度。第三、我们不再热衷于寻找因果关系。
大数据时代开启了一场寻宝游戏,而人们对于数据的看法以及对于由因果关系向相关关系转化时释放出的潜在价值的态度,正是主宰这场游戏在关键。
感悟:大数据不再过时。我们可以从不同的维度去提取有价值的东西。大数据挖掘算法不是大数据研究的核心,而是我们从他人想不到的维度去提取有价值的东西。所以大数据应用比大数据挖掘算法更为重要。
第一部分 大数据时代的思维变革
01 更多......不是随机样本,而是全体数据
1、让数据“发声”:大数据与乔布斯的癌症治疗:苹果公司的传奇总裁乔布斯在与癌症斗争的过程中采用了不同的方式,成为世界上第一个自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用,这是23andme报价的几百倍之多。所以,他得到的不是一个只有一系列标记的样本,他得到了包括整个基因密码的数据文档。对于一个普通的癌症患者,医生只能期望她的DNA排列同试验中使用的样本足够相似。但是乔布斯的医生们能够基于他的特定基因组成,按所需效果用药。如果癌症病变导致药物失效,医生可以及时更换另一种药。乔布斯说:“我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人”。虽然他的愿望都没有实现,但是这种获得所有数据而不仅是样本的方法还是将他的生命延长了好几年。
2、样本=总体:我们总是习惯把统计抽样看做文明得以建立的牢固基石。但是统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的,其历史不足一百年。在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。慢慢地,我们会完全抛弃样本分析。
感悟:现在每一个医学专业的学生都会修一门课本(统计学),也许不久的将来,这门课会正式退出医学课程。
02 更杂......不是精确性,而是混杂性
1、允许不精确:从“小数据”到“大数据”的一个重要转变之一,就是我们允许不精确。“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。整个社会要习惯这种思维需要很长的时间,其中也会出现一些问题。但现在,有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。
2、大数据的简单算法比小数据的复杂算法更有效:翻译软件有微软的班科、IBM的Candige、谷歌等三大翻译系统。谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制。和其中两个翻译软件相比,这是因为谷歌翻译增加了很多各种各样的数据。而且还有一部分数据来自于互联网的一些废弃内容。
3、纷繁的数据越多越好:如今我们已经生活在信息时代。我们掌握的数据库越来越全面,它不再只包括我们手头现象的一点点可怜的数据,而是包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是高昂的代价消除所有的不确定性。混杂性,不是竭力避免,而是标准途径。
感悟:拥抱大数据时代,最重要的还是我们心智模式的改变。要格式化自己过去曾经拥有的.....
4、新的数据库设计的诞生
大的数据库并不是固定在某个地方的,它一般分散在多个硬盘和多台电脑上。为了确保其运行的稳定性和速度,一个记录可能会分开存储在两三个地方。如果一个地方的记录更新了,其他地方的记录则只有同步更新才不会产生错误。传统的系统会一直等到所有地方的记录都更新,然而当数据广泛地分布在多台服务器上而且服务器每秒种都会接受成千上万搜索指令的时候,同步更新就比较不现实了。因此,多样性是一种解决的方法。
Hadoop:最能代表这个转变的,就是Hadoop的流行。它非常善于处理超大量的数据。通过把大数据变成小模块然后分配给其他机器进行分析,它实现了对超大量数据的处理。它预设硬件可能会瘫痪,所以在建立了数据的副本,它还假定数据量之大导致数据在处理之前不可能整齐排列。它假定了数据量的巨大使得数据完全无法移动,所以人们必须在本地进行数据分析。Hadoop的输出结果没有关系型数据库输出结果那么精确,它不能用于卫星发射、开具银行账户明细这种精确度要求很高的任务。但是对于不要求极端精确的任务,它就比其他系统运行得快很多,比如说把顾客分群,然后分别进行不同的营销活动。
感悟:Hadoop是学习大数据平台的第一门语言,我要准备好哦......
03 更好......不是因果关系,而是相关关系
1、亚马逊推荐系统:根据客户个人以前的购物喜好,为其推荐具体的书籍。据说亚马逊销售额的三分之一都是来自于它的个性推荐系统。亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。
感悟:在大数据时代下,我们只需要知道是什么就够了,没必须知道为什么。
2、相关关系:相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。相反相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。现在,在机器、发动机和桥梁等基础设施上放置传感器变得越来越平常了,这些传感器被用来记录散发的热量、振幅、承压和发生的声音等。一个东西要出故障,不会是瞬间的,而是慢慢地出问题的。
比如:超市把尿片和啤酒放在一起;蛋挞和飓风用品放在一起;预测一个妇女怀孕。这是我们通过两个数据的相关关系分析出来的。因为这两者的相关关系强。让我们应用大数据去寻找更多的相关关系.....
3、大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡,而是通往未来的必然改变。
感悟:在大数据时代下,我能做什么?
04 数据化 一切皆可“量化”
1、数据,从最不可能的地方提取出来
日本汽车防盗系统:当一个人坐着的时候,他的身型、姿势和重量分布都可以量化和数据化。在汽车的座椅下部安装总共360个压力传感器以测量人对椅子施加压力的方式。把人体屁股特征转化成了数据,并且用从0到256这个数值范围对其进行量化,这样就会产生独属于每个乘坐者的精确数据资料。在这个实验中,这个系统能根据人体对座位的压力差异识别乘坐者的身份,准确率高达98%。有了这个系统之后,汽车就能识别出驾驶者是不是车主;如果不是,系统就会要求输入密码;如果司机无法准确输入密码,汽车就会自动熄火。同时,这个系统不但可以发现车辆被盗,而且可以通过收集到的数据识别出盗贼的身份。
感悟:这个例子很有意思。识脸、指纹系统等都是对抽象的图象进行了数据化。
2、当文字变成数据
当文字变成数据,它就大显神通了。人可以用之阅读,机器也可用之分析。亚马逊深谙数据化内容的意义,而谷歌触及了数据化内容的价值。
对地理位置的数据化需要满足一些前提条件。我们需要能精确地测量地球上的每一块地方;我们需要一套标准的标记体系;我们需要收集和记录数据的工具。简而言之,就是地理范围、标准、工具或者说量化、标准化、收集。只有具备了这些,我们才能把位置信息当成数据来存储和分析。
“现实挖掘”是通过处理大量来自手机的数据,发现和预测人类行为。在一项研究中,他们通过分析每个人去了哪里,见了谁,成功地区分了感染了流感的人群,而且在感染者还完全不知道自己已经患病之前就做了区分。如果出现非常严重的流感疫情,这可以挽救无数人的生命,因为我们知道应该隔离谁,而且随时都知道去哪里找到他。
感悟:我们的隐私去哪儿了?
3、当沟通变成数据
数据化不仅将态度和情绪转变为一种可分析的形式,也可能转化了人类的行为。facebook将社交关系变成数据;Twitter通过创新,让人们被轻易记录以及分离他们零散的想法,从而使情绪数据化得到实现/
4、世间万物的数据化。
通过一个人的体重、站姿和走路方式确认他的身份。ZEO公司则早已制作出了世界上最大的睡眠活动数据库,提示了男性和女性睡眠时快速眼动量的差异。Asthmaplis公司将一个感应器绑定到哮喘病人佩戴的呼吸器上,通过GPS定位,再汇总收集起来的位置数据,可以判断环境因素对哮喘的影响。苹果公司通过音频耳塞收集关于血液氧合、心率和体温的数据。获取数据正变得比以往任何时候都简单而不受限制。
一旦世界被数据化,就只有你想不到,而没有信息做不到的事情了。今天,拥有了数据分析的工具(统计学和算法)以及必需的设备(信息处理器和存储器),我们就可以在更多领域、更快、更大规模地进行数据处理了。在大数据时代,惊喜无处不在。
将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。
05 价值 “取之不尽,用之不竭”的数据创新
1、数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。
在数字化时代,数据支持交易的作用被掩盖,数据只是被交易的对象。交易完成,数据也就完成他的使命。而在大数据时代,事情发生变化。数据的价值从它最基本的用途转变为未来的潜在用途。这一转变意义重大,它影响了企业评估其拥有的数据及访问者的方式,促使甚至是迫使公司改变他们的商业模式,同时也改变了组织者看待和使用数据的方式。
2、数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其他目的。要了解大数据时代究竟有多少信息对我们有价值,后面这一点尤其重要。
3、数据的“潜在价值
IBM电动汽车动力与电力供应系统优化预测:IBM开发了一套复杂的预测模型。输入:基于大量的信息输入,如汽车的电池电量、汽车的位置、一天中的时间以及附近充电站的可用插槽,它将这些数据与电网的电流水泵以及历史功率使用模式相结合。通过分析来自多个数据源的巨大的实时数据流和历史数据,能够确定司机为汽车电池充电的最佳时间和地点,并提示充电站的最佳设置点。阳后,系统需要考虑附近充电站的价格差异,即使是天气预报,也要考虑到。系统采用了为某个特定目的而生成的数据,并将其重新用于另一个目的,换言之,数据从其基本用途移动到了二级用途。这使得它随着时间的推移变更更有价值。
感叹:数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。
4、数据创新1:数据的再利用。亚马逊,让数据的价值再大一点:未能理解数据再利用重要性的公司以惨痛的代价换来了经验教训。例如,亚马逊早期与AOL达到了一项协议,为AOL电子商务网站提供了后台技术服务。在大多数人眼里,这只是一个普通的外包协议,而亚马逊真正的用意在于掌握用户的数据:他们在看什么、买什么。这些数据可以帮助亚马逊提高它的推荐引擎性能。可怜的AOL从来没有意识到这一点,只看到了销售这个基本用途所带来的利益;而聪明的亚马逊去知道如何从二次利用中获利。
5、数据创新2:重组数据。随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。
6、数据创新3:可扩展数据。在收集数据时强调扩展性方面,谷歌毫无疑问是做得最好的公司之一。街景不仅拍摄了房屋和道路的照片,还同时采集GPS数据,检查地图的信息,甚至还加入了无线网络名称。这些数据之所以具有可扩展性,是因为谷歌不仅将其用于基本用途,而且进行了大量的二次使用。
7、数据创新4:数据的折旧值。潜在价值的概念表明,组织机构应收集尽可能多的使用数据并保存尽可能长的时间。同时也应当与第三方分享数据,前提是要保留所谓的"延展性"权利。这样一来,由数据再利用而产生的任何商业价值,原始数据拥有者都能从中分到一杯羹。数据收集者和拥有无法想像数据再利用的所有可能方式,这一点几乎是不言自明的。
8、数据创新5:数据废气。谷歌,从大的“噪音”数据中受益。谷歌敏锐地注意到,人们经常搜索某个词及其相关词,点击进入后却未能找到想要的信息,于是又返回到搜索页面继续搜索。它知道人们点击的是第1页的第8个链接还是第8页的第1个链接,或者是干脆放弃了所有搜索点击。谷歌不是第一个洞察到这一点的公司,但它利用这一点并取得了非凡的成果。这些信息是非常有价值的。如果许多用户都点击搜索结果页底部的链接,这表明这个结果更加具有相关性,谷歌的排名算法就会自动地在随后的搜索中将它提到页面中比较靠前的位置。一位谷歌的员工说:“我们喜欢从大的“噪音”数据集中吸取教训”。
9、数据创新6:开放数据。政府才是大规模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。政府与私营企业数据持有人之间的主要区别就是政府可以强迫人们为他们提供信息,而不必加以说服或支付报酬。"开放政府数据"成为当前的一大难题。
10、给数据估值:如何给数据估值?一个办法介从数据持有人在价值提取上所采取的不同策略入手,最常见的一种可能性就是将数据授权给第三方。在大数据时代,数据持有人倾向于从被提取的数据价值中抽取一定比例作为报酬支付,而不是敲定一个固定的数额。这有点类似于出版商从书籍、音乐或电影的获利中抽取一定比例,作为支付给作者和表演者的特许权使用费。这样一来,各方都会努力使数据再利用的价值达到最大。
数据价值的关键是看似无限的再利用,即它的潜在价值。收集信息固然至关重要,但还远远不够。因为大部分的数据价值在于它的利用,而不是占有本身。
06 角色定位 数据、技术与思维的三足鼎立
1、微软以1.1亿美元的价格购买了大数据公司Farecast,而两年后谷歌则以7亿美元的价格购买了给Farecast提供数据的ITA Software公司。如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分的价值还是必须从数据本身中挖掘。
2、数据科学家:是统计学家、软件程序员、图形设计师与作家的结合体。与通过显微镜发现事物不同,数据科学家通过探寻数据加来得到新的发现。全球知名咨询管理公司麦肯锡,就曾极端地预测数据科学家是当今和未来稀缺的资源。
3、三种大数据公司:第一种是基于数据本身的公司;第二种是基于技能的公司;第三种是基于思维的公司。
4、全新的数据中间商:三个角色谁是最核心的?
技术?随着大数据成为人们生活的一部分,而大数据工具变得更容易和更方便使用,越来越多的人会掌握这些技能,所以这些技能的价值就会相对减少。所以,数据拥有者们也会真正意识到他们所拥有的财富。因此他们可能会把他们手中所拥有的数据抓得更紧,也会以更高的价格将其出售。
5、数据科学家的崛起
6、大数据,企业的竞争力
苹果,挖出“潜伏”的数据价值:在苹果推出之前,移动运营商从用户手中收集了大量具有潜在价值的数据,但是没能深入挖掘其价值。相反,苹果公司在与运营商签订的合约中规定运营商提供给它大部分的有用数据。通过来自多个运营商提供的大量数据,苹果公司所得到关于用户体验的数据比任何一个运营商都要多。苹果公司的规模效益体现在了数据上,而不是固有资产上。
大数据让处于行业两端的公司受益良多,而中等规模的公司要么向两端转换,要么破产。传统行业最终都会转变为大数据行业,无论是金融服务业、医药行业还是制造业。
随着大数据越来越精确地预测世界的事情以及我们所处的位置,我们可能还没有准备好接受它对我们的隐私和决策过程带来的影响。我们的认知和制度都还不习惯这样一个数据充裕的时代。
感悟:在当下,大数据思维公司比大数据技术公司更有前途。
07 风险......让数据主宰一切的隐忧
1、我们时刻都暴露在“第三只眼”之下:亚马逊监视着我们的购物习惯;谷歌监视着我们的网页浏览习惯;而微博似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系网。
2、预测与惩罚,不是因为“所做”,而是因为“将做”,即使他们事实上并没有犯罪。警方可以运用大数据对犯罪趋势进行预测。
3、数据独裁:大数据大大地威胁了我们的隐私和自由,这都是大数据带来的新威胁。但是与此同时,它也加剧了一个旧威胁:过于依赖数据,而数据远远没有我们所想的那么可靠。只要得到了合理的利用,而不单纯只是为了数据而数据,大数据就会变成强大的武器。
谷歌流感趋势,大数据让我们知道了流程的地区,并不是说隔离这个地区的所有人。这样既无必要也太费事。所以,我们有了需要隔离的人的数据,联邦特工只需要通过IP地址和移动GPS提供的数据,找出该用开始户并送入隔离中心即可。
感悟:凡事“中庸”一些,对大数据也不例外。
08 掌控......责任与自由并举的信息管理
1、当世界开始迈向大数据时代时,社会也将经历类似的地壳运动。在改变人类基本的生活与思考方式的同时,大数据早已在推动人类信息管理准则的重新定位。然而,不同于印刷革命,我们没有几个世纪的时间去适应,我们也许只有几年时间。
2、管理变革1:个人隐私保护,从个人许可证到让数据使用者承担责任。对大数据使用进行正规评测及正确引导,可以为数据使用者带来切实的好处:很多情况下,我们无须再取得个人的明确同意,就可以对个人数据进行二次利用。
为实现这一平衡,监管机制可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。
3、管理变革2:个人动因VS预测分析:在大数据时代,关于公正的概念需要重新定义以维护个人动因的想法:人们选择自我行为的自由意志。简单地说,就是个人可以并应该为他们的行为而非倾向负责。
4、管理变革3:击碎黑盒子,大数据算法师的崛起。大数据的动作是在一个超出我们正常理解的范围之上的。在这些背景下,我们能看到的大数据预测,运算法则,和数据库有变为黑盒子的风险,这个黑盒子不透明、不可解释、不可追踪,因而我们对其信息全无。为了防止这些情况的出现,大数据将需要被监测和保持透明度。当然还有使这两项得以实现的新型专业技术和机构。如外部算法师和内部算法师。数据算法师对大数据进行深度分析。如此,因为大数据而变得可预测的世界,才不会陷入一个用一种未知取代一个未知的困境中,不会变成一个黑匣子。
5、管理变革4:反数据垄断大亨。
结语......正在发生的未来
1、大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案。帮助是暂时的,而更好的方法和答案还在不久的未来。
2、我们“做新、做多、做好、做快”的能力能释放出无限价值,产生新的赢家和输家。大部分的信息价值来自二级用途,即潜在价值,而不是我们所习惯认为的基本用途。结果对于大多数据来说,尽可能多地收集、等待信息增值并且让其他更适合挖掘价值的人来分析它才是明智之举
3、大数据并不是一个充斥着运算法则和机器的冰冷世界,其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的。因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。偶尔也会带来屈辱和固执的同样混乱的大脑运作,也能带来成功,或在偶然间促成我们的伟大。这才能推动世界的进步。
感悟:大数据的力量是那么耀眼,我们必须避免被它的光芒诱惑,并善于发现它固有的瑕疵。