《大数据时代》读书笔记

大数据时代:生活、工作与思维的大变革
Big Data:A Revolution That Will Transform How We Live, Work, and Think

作者:[英] 维克托·迈尔·舍恩伯格
出版年: 2012-12

写在前面

1、关于读这本书的动机和读完之后的第一感触

  • 今后的工作将要和大数据打交道,hello big data. 接触了一点hadoop之后,拿起这本书读一读,读完后对大数据时代下新思维、趋势有了很震撼的认识。
  • 迁移:在接触某领域技术之前,应该先在技术层面对该项技术有大体上的了解,紧接着去了解相关的技术背景,再回到具体的技术学习,这对技术的掌握和学习有很大的帮助。不直接从技术背景入手,是因为技术背景中会涉及诸多技术层面的理论知识,受其他知识的影响,可能会存在误解的风险,不利于正确把握;另一方面,对技术有初步印象以后,再次回到技术学习,会加深对技术的发展、趋势、价值意义等方面的理解;这是一个相辅相成的过程。

2、三个核心的思维转变

  • 要全体不要抽样
  • 要效率不要绝对精确
  • 要相关不要因果

3、大数据的核心——预测

笔记和摘录

第一部分:思维变革

1、大数据将逐渐成为现代社会基础设施的一部分
如果认同世界的本质就是数据,那么大数据将在多个领域和学科门类引起变化和发展,进而影响人类的价值体系。

2、越是万能的,就越是空洞
大数据是一个概念,可以运用在多个领域,但不要将其当做一种放之四海而皆准的万能概念,这应该是人们面对一个新领域或新概念是应有的态度。

某些观念有事会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以,它们似乎将有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可以用来构建一个综合分析体系的概念核心。这种“宏大概念”突然流行起来,一时间把几乎所有东西都挤到了一边。 ——Susan Langer 《哲学新视野》

3、大数据是什么
大数据并不是一个确切的概念。
最初,大数据这个概念指需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量,因此工程师们必须改进数据处理工具,这催生了类似Google的MapReduce、Hadoop这一类技术的诞生和发展,使得可以被处理的数据量大大增加,消除了只能处理格式化数据的限制,摆脱了大数据处理必须依赖于大型机的限制。
今天,大数据是一种方式,这种方式可以在大规模数据的基础上完成一些在小规模数据上无法完成的事情;大数据是人们获取新的认知、创造新的价值源泉、改变市场、组织机构以及政府与公民关系的方法。

4、大数据的核心是什么
预测。把数学算法运用到海量数据上来预测事情发生的可能性。

5、大数据时代的思维变革1——更多:不是随机样本,而是全体数据

样本=总体

随机采样只是统计上的一个捷径,当收集和分析全部数据不现实的情况下选择,它本身有很多固有的缺陷。随机采样不适合考察子类别,一旦要在随机采样的数据中继续细分,将导致非常大的不精确。

随机采样就像是模拟照片打印,远看很不错,但是一旦聚焦到某个点,就会变得模糊不清。

这就导致了随机采样的调查结果不具有延展性,调查出的数据不可以重新分析以实现计划之外的目的。

大数据不采用随机采样这样的捷径,而是采用分析所有数据的方法。技术的进步和创新,提高了数据采集的能力和效率,使得处理所有数据成为可能。

6、大数据时代的思维变革2——更杂:不是精确性,而是混杂性
允许不精确,放松了容错标准,提高了容错能力:允许有噪声数据、对非格式化的数据进行数据清洗等。
大数据抵消了错误数据带来的不精确:

大数据通常用概率说话,而不是板着“确凿无疑”的面孔。真个社会都适应这种思维需要很长的时间,其中也会出现一些问题。但现在,有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。

据估计,只有5%的数字数据是结构化且适用于传统数据库。如果不接受混乱,剩下的95%非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打来了一个未涉足的世界的窗户。

7、大数据时代的思维变革3——更好:不是因果关系,而是相关关系
建立在相关关系分析法上的预测是大数据的核心,我们通过大数据分析得到的是“是什么”(相关关系),而得不出“为什么”(因果关系)的结论。

通过大数据分析,寻找事物、数据之间的关联性来分析现象,而不是揭示其内部机制。往往通过大数据得出的结论只是一个可能性预测,而不知道其背后的原因。

  • 大数据可以为我们寻找关联物,我们理解世界不再需要建立在假设的基础上

相关关系的两端是两类被关联的事物,二者具有相关性(正相关、负相关或者更复杂的数理关系)。

在大数据时代以前,相关关系用的非常少。因为数据很少而且收集数据很费时费力,所以统计学家们喜欢找个关联物(这是基于假设的,具有很大的盲目性),然后手机与之相关的数据进行相关关系分析来评测这个关联物的优劣。这是一个繁琐的过程,只适用于小数据时代。

在大数据时代,关联物不需要再“被选择”,即不需要人工选择一个关联物或者一小部分相似数据来逐一分析了。通过机器学习,我们可以辨别出具有最相关关系的两个关联物,以及在关联物之间建立合适的数学模型。

通过找出一个关联物并监控它,我们就能预测未来。

  • 关于因果关系是否存在的哲学争论

这个争论在哲学界已经持续了几个世纪。毕竟,如果凡事皆有因果的话,那么我们就没有决定任何事的自由了。如果我们做的每一个决定或者每一个想法都是其他事情的结果,而这个结果又是其他原因导致的,以此循环往复,那么就不存在人的自由意志这一说了——所有的生命轨迹都只是受因果关系控制了。因此,对于因果关系在世间所扮演的角色,有时被认为是与自由意志对立的。

第二部分:商业变革
第三部分:管理变革
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容