《大数据时代》读书笔记

其实是很久很久之前就应该看的一本书,放在“想读”中,最近终于花了几天时间看完。作者在文中的观点集中在五个方面:

一、大数据带来公共卫生、商业、思维的变革,开启重大的时代转型,而预测是大数据的核心

作者举了谷歌预测流感的快速有效性、机票价格趋势预测网站这两个例子。介绍了随之而来的hadoop大数据处理技术,同时通过各行业的例子说明了当今时代,数据增速超过以往任何一个时代,海量数据将会最终产生质变,改变这个时代。大数据的核心运用体现在对现状的判断,对将来事物的预测。预测我们需要什么,喜欢什么。

二、大数据的思维变革主要体现在

1. 我们有能力去采集和处理海量的数据,因此我们可以跳出传统的抽样统计分析方法,转而对全部的海量数据进行分析

让数据“发声”:依靠全量的所有数据,而不仅仅是一小部分样本。

曾经我们没有大量数据的收集和分析能力,不得不采用抽样以及统计学的方法来做分析(笔者:事实上,即使在当代,也仍然有很多复杂的案例无法收集到全量数据),抽样的精确度与抽样的随机性明显相关,因此抽样时的随机性比抽样的样本大小更重要。但抽样本身有许多固有的缺陷,比如不能了解细分领域的情况——因为抽样必须保证随机性,比如抽样只能按照事先设计的问题去做针对性的调查——而不能随时解答突然发现的新问题。

大数据本身的概念就是指不需要依赖于随机分析而采用所有数据的方法,比如在信用卡交易中,异常值是我们反而要特别关注的。而且大数据还会捕捉到非常多的个体信息,这些个体信息可能揭示了某种特征,而这是抽样方法所无法捕捉到的

2. 数据纷繁混杂,我们无法苛刻地去追求数据的标准化和精确性,而需要去接受数据的不精确性

一定程度上来说,大数据的混杂性是我们不得不接受的结果,大量的数据是非结构化的。但是包含不精确的极大量的数据,仍然能够给我们提供相比于精确标准的“小数据”更多的信息。大数据的简单算法也比小数据的复杂算法更加有效(此处举了谷歌翻译的例子)。而错误的数据也许同样可以给我们提供价值。另外混杂的数据是另一种灵活的途径,比如我们在facebook上的标签,不会也不可能有某几种固定的分类。

混杂的数据也推动了数据库的变革,从传统的结构化数据化转而出现众多非结构化的数据库。

笔者:事实上即使在抽样数据中我们也必须忍受数据的混杂性。我们从来不应该奢望以任何数据得出的结论是精确的,一切都需要在误差范围内进行决策

  3. 大数据更关心相关关系而不再局限于因果关系,我们只要知道“是什么”而不需要追求“为什么”,就能帮助我们做出有利的决策

相关关系的核心是量化两个数据值之间的数理关系,但是相关关系不会解释内部的运作机理,相关关系没有绝对,只有“可能性”。它可以帮助我们捕捉现在以及预测未来,经典的沃尔玛飓风和蛋挞例子表明我们只需要知道“是什么”就可以作出决策。建立在相关关系分析法基础之上的预测是大数据的核心,通过找出一个相关的关联物并监控,就能预测未来。

笔者:事实上人类是惯性于探寻因果关系的。而且在很多可行的情况下我们仍然要去分析为什么。因为“数据可能撒谎”,我们需要结合严密的逻辑和正确的思维方向去探索真正的原因,才能自由运用数据。

三、大数据时代的商业变革主要体现在

  1. 一切事物皆可量化、数据化,只要有数据化思维,一切不可能产生数据的地方都可以提取出数据

莫里从老航海家的日志里发现了历史的航海数据,并通过联合大量的商船互通数据的方式不断更新,以及通过发生事故后的修正,制作了航线分析系统。日本汽车公司将司乘驾驶座位的各点位压力数据测量并分析,监控汽车是否被盗或者汽车是否发生了事故。作者还特意强调了数字化和数据化的区别。数字化是指将模拟数据转换成电脑可识别的形式,而数据化则是指转变为可用于分析的量化形式。比如扫描的文字是一幅幅图像,仅实现了书籍的数字化,而将这些图像转变成每个文字可识别的电子书,才是真正的数据化。数字化带来了数据化,但数据化才是核心。文字、方位、甚至沟通(社交图谱),只要有想象,一切事物都可以变成数据

  2. 数据是取之不尽用之不竭的资源,可以二次创新,可以再利用,可以扩展

为了打击作弊软件,发明了验证码,而后通过验证码为不可识别的单词确认正确与否实现了数据的二次利用。数据的价值没有互斥性,不会因为被使用多少次而减少。而数据的潜在价值实际上无法估计,因此对数据使用的许可其实无法一步到位,因为谁都无法完全预知这些数据将被如何使用。

    3. 目前数据相关的商业模式是数据所有者(数据提供方)、数据技术提供方、数据思维提供方(解决方案咨询)三足鼎立的局势,最有价值的是数据所有者和数据思维

所谓大数据思维,是指这样的一种意识,认为公开的数据一旦处理得当,就能为许多人急需解决的问题提供答案。谷歌和亚马逊是数据、技能和思维三者兼备的企业。

  4. 大数据决定了企业竞争力,行业经验丰富的专家将逐渐消失,而数据科学家将崛起

数据科学家可以不受行业旧观念的制约,能够认真聆听数据发出的声音。行业专家并非真正消亡,但是他们的主导地位会发生改变。专业经验只适用于我们对数据的掌握不够多的“小数据时代”,那个时代的经验是先决的,是潜意识里知识的积累。而海量数据时代我们可以挖掘更多。

四、大数据对管理变革提出了挑战,隐私和数据独裁需要引起重视

即使对个人关键信息进行脱敏(匿名)处理,多数据来源的交叉验证也能轻易定位到具体的个人。作者同时提出了一个警示:我们是否能够因为预测某人将要犯罪就将他逮捕?

数据独裁是指执迷于数据从而导致过于依赖数据,但实际上数据可能远不如我们所想象的那么可靠。数据可以作假。只有合理利用数据而不单纯是为了“数据”而“数据”,大数据才会变成强大的武器。

大数据的运作过程有成为“黑盒子”的风险,不透明、不可解释、不可追踪,超出我们正常理解的范围,因此需要内部或外部的专门化的算法师来监测并保持透明度。

附:

谷歌的图书馆:http://books.google.com/ngrams,打开 Google Naram Viewer,提供单词和短语历年使用次数的展示图表

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352

推荐阅读更多精彩内容

  • 这本书毫不犹豫给五星好评。大数据怎么理解?就是指海量的信息。信息又是什么?文字、图片、音频、视频等都是信息的常规表...
    龙少侠linux阅读 1,371评论 2 1
  • 大数据时代:生活、工作与思维的大变革Big Data:A Revolution That Will Transfo...
    拾壹北阅读 1,432评论 0 2
  • 缘起 都说现在是个大数据时代,统计学的书有了,机器学习的书也有了,Python也快用10年了,但是对于大数据似乎还...
    明慢慢阅读 2,879评论 0 4
  • 大数据时代的思维变革 在小数据时代,我们认识世界的方式是通过抽样样本来统计推测出事物的因果关系,以最少的数据获取最...
    蜗牛不是牛阅读 592评论 0 2
  • 成都的秋天是深得成都人喜爱的,因为成都的秋天扣着他们的生活,如果人们没有在暖阳下喝着盖碗茶,眯着眼摆着龙门...
    宽眼看世界阅读 324评论 0 2