本书作者周涛是中国最年轻有为的大数据专家,他不仅做大数据研究,而且将产、学、研融为一体,在大数据传新实践上一直卓有成效。作者致力于培养大数据挖掘与分析的人才,通过本书能够很好地培养一大批对大数据感兴趣的读者。
整本书主要分为两大部分,第一部分叙述了我们身边万事万物皆可数据化,我们正在处于数据大爆发的时代,数据指数级增长,数据与数据之间的联系也异常紧密。第二部分主要介绍了大数据的三种创新形态:分析、外化和集成。分析主要叙述了用自身业务产生的数据解决自身业务遇到的问题。确定问题和指标、数据清理、特征提取和特征选择、模拟训练、模拟融合,通过这几步来确定该类数据可以预测未来要发生的事情的概率。正如作者所说,现在大数据主要解决的问题是对未来的预测,而检验模型是否正确的唯一标准就是预测的结构是否发生或者发生的概率是否提高了。面对数据类型的不断增多,能够了解各类数据、目标和模型之间的差异,能够对特征的选择和模型的选择有丰富的经验、敏锐直觉的人将是大数据时代的赢家。外化主要指的是发挥数据的外部性,通过分析看起来似乎没有直接关系的外部数据推动解决当前的问题。而集成主要指的是为形成真正的大数据公司,需要将对大数据的收集和处理、数据的商业化进行集成与整合。这样才能在大数据的浪潮中拥有优势。
大数据3.0时代是数据大爆发的时代,也是数据被不断深度挖掘与分析的时代。面对各种商业问题,通过采集整合数据并对其深度挖掘,会得到意想不到的解决方案。书中不断强调机械学习。机械学习首先寻找各种多个特征,并赋予不同特征以不同的权重;然后通过各种模型建立从特征到目标之间的关系;最后将多个模型进行融合将会得到相对稳定的较为不错的结果。当我们想要发挥数据外部性的价值的时候,因为外部数据大多和业务本身关联较弱,专家知识和专业性的分析很难应用,这个时候机械学习就会起到很大作用。尽管缺乏专业分析无法直接给我们深刻的洞见,但因为机械学习的精确性和稳定性,经常直接产生巨大的经济价值。
最后作者还对如何成为大数据企业给予了很好的意见与建议。现阶段大数据创业公司面临着一个好的商业模式和产品设计可能受阻于某些关键技术、有些团队拥有很强的数据分析和挖掘的能力但是缺乏商业敏感性和产品设计能力这两大问题。面对这两大问题,作者提出了全面数据化、整理数据资源,建立数据标准,行程管理规范等八点意见。作者意见中肯,很值得大数据创业企业学习借鉴。
该书文笔朴实,深入浅出,思维缜密,思想深远,作者很全面的介绍了大数据时代的方方面面,也将大数据时代的发展方向及大数据公司如何成长进行了深入的阐述,是一本能够较好了解大数据挖掘与分析的书籍。