缘起
都说现在是个大数据时代,统计学的书有了,机器学习的书也有了,Python也快用10年了,但是对于大数据似乎还缺乏一个在面上的认识,于是购买包含《大数据时代》在内的关于数据及机器学习和人工智能在内的一堆书,慢慢看吧。
乱弹
- 本书一共分成五部分,分别是引言、大数据时代的思维变革、大数据时代的商业变革、大数据时代的管理变革和结语。
- 引言从流感病毒的监察说起,到谷歌公司如何引用数据预测病毒趋势,引出
大数据以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见
这一主题。 - 书的第一部分:大数据时代的思维变革重点讲述了在大数据时代作者对于数据的三个基础认识: ** 不要随机样本,要全体数据;不要精确性,而是混杂性;不要因果关系,要相关关系 **。
- 第二部分聚焦大数据对于商业的影响,重点聚焦大数据的商业创新以及数据、技术和思维之间的关系。提出数据是取之不尽,用之不竭的矿藏;对于构成数据价值链的三个环节:数据、技术和思维分别进行了分析,认为数据的最大价值将逐渐从最初的技术和思维向数据本身转移。
- 第三部分更多从数据本身延伸出在大数据时代管理的变革,着重探讨在大数据时代存在的隐私保护、预测惩罚和数据垄断等问题,提出应由使用数据的组织确保数据安全和个人隐私。
- 结语对本书前面部分进行了简单的总结,重申大数据本身的重要性,数据的大部分价值来自二级用途,应该尽可能多的收集、等待信息增值并且让其他更适合挖掘其价值的人来分析,强调人在数据分析中的关键和创造性作用。
- 本书包含许多的数据应用案列,同时也没有使用过多的专业数据,阅读起来也不费力,作者从宏观的角度思考了大数据本身的意义以及对于我们生活的现实和潜在影响。对于一个仅仅听说过大数据名词,对其内容不胜了了的读者来说是一本很不错的思维启迪书籍,能够帮助读者突破原有思维的局限,从一个全新的角度来重新看待和思考大数据的问题。本书更多的是打开思维的数据,如果你想通过本书学会如何进行数据的分析、挖掘或者学会什么专业的技能那么建议你不要阅读本书。
笔记
- 大数据的新准则
- 不是随机样本,而是全体数据
- 不是精确性,而是混杂性
大数据的简单算法比小数据的复杂算法更有效- 不是因果关系,而是相关关系
关注是为什么,而不是为什么。
*数据已经成为了一种商业资本,一项重要的经济投入,可以创造性的经济利益。
- 大数据的核心是预测
一个东西要出问题,不会是瞬间的,而是慢慢地出问题,通过找出一个关联物并监控它,我们就能预测未来。
- 全数据模式,样本=总体
- 数据的创新
- 数据的再利用
- 重组数据
- 可扩展数据
- 数据的折旧值
- 数据废气
人们在网上留下的数字轨迹,叫做数据废气,它是用户在线交互的副产品,包括浏览了哪些页面,停留了多久,鼠标光标停留的位置,输入了什么信息等。- 开放数据
- 数据价值链的构成
- 基于数据本身的公司
- 基于技能的公司
- 基于思维的公司
行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。
- 信息管理的变革
- 个人隐私保护,从个人许可到让数据使用者承担责任
- 个人动因VS预测分析
个人应该为他们的行为而非倾向负责- 大数据算法师的崛起
- 反数据垄断