卫生机构使用传统方法预测流感的传播,很多时候存在滞后性。而作为一家互联网公司,谷歌通过分析用户在搜索引擎上的搜索记录来预测流感传播,其准确率比卫生机构还高,而且预测输出时间比机构提前了2周!这就是大数据给人类带来的惊喜。
现在我们经常听到别人在谈论“大数据”,但是当大家在侃侃而谈的时候,究竟有多少人理解“什么是大数据”?
今天林猫咪结合《大数据时代》这本书的内容,跟大家聊聊大数据那些事。
一、什么是大数据?
我的理解的大数据是一种状态。在这种状态中,我们面对的数据是海量的。因为现代科技的发展,我们有了对海量数据存储和处理的技术,而且这些技术还会不断发展完善。更重要的是我们对各种数据的处理方法和态度都发生了转变,我们开始积极地发掘并利用各种数据。在这个时代,数据已经成为一种非常重要的资源。
二、大数据时代下的3个思维变革
1、不是随机样本,而是全体数据
以前我们开展研究时,习惯采取抽样调查的方式。因为之前人类对于数据的收集、储存和处理的能力有限。那时采取随机抽样是让我们最大限度了解真实情况的可行方案。
但是随着科技的发展,我们已经有了解所有样本的能力。这时对全部的样本进行研究,将让我们输出接近100%的真相。
例如:古代人如果要了解全国人均寿命,可行的方法是:随机调查全国几个城市的部分人员寿命,以此推出全国大概的人均寿命。但是现在我们每一个人从出生到死亡的信息都会被记录。这样我们就可以从全体数据的角度来看问题了。
理解这一点,并不是要求我们每个研究都选择全体数据,这只是为我们的研究拓宽一条渠道而已。毕竟目前我们还需要考虑处理海量数据的经济成本。
2、不是精确性,而是混杂性
大数据时代我们要学会拥抱混杂性。传统的语言翻译系统,会输入大量复杂的算法逻辑,结合大量例句、单词、短语、和语法习惯,来进行翻译活动。但这样的结果是:翻译范围有限、翻译对象仅限于2种语言之间。
而谷歌抛弃了精确算法这条路子,选择大量收集和处理全球能找到的所有翻译,掌握用不同语言翻译的、质量参差不齐的数十亿页文档,用此来搭配组合出质量最好的结果。这种混杂性下,谷歌的翻译系统就像一个成长中的孩子,不断学习和积累。即使它会吸收部分错误的信息,但这并不会影响它整体的成才。
所以说,大数据的简单算法比小数据的复杂算法更有效。
3、不是因果关系,而是相关关系
经济学中有一个“啤酒尿布”现象——将尿布和啤酒放在一起,这两样产品的销量会同时增加。
对此经济学家尝试给出了各种解释,希望从中找出因果关系。例如:家庭主妇采购尿布时,看到啤酒就会顺便为丈夫准备一点。
而在这本书中,作者强调:知道“是什么”就够了,没必要知道“为什么”。即关注相关关系即可。
现在我们已经有了收集和存储海量数据的设备,我们也有了进行数据挖掘的工具,那么就只管去寻找数据之间的相关关系就可以了,至于他们为什么会有这个相关关系我们可以不管,只要懂得应用就好。
以上便是《大数据时代》的部分内容分享,接下来是这本书的整体介绍:
【今日好书】:《大数据时代》,豆瓣评分7.5分。
【作者】:维克托.迈尔-舍恩伯格(Viktor Mayer-Sch·nberger),被誉为“大数据商业应用一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历。
【内容简介】:《大数据时代》一书中展示了谷歌、微软、IBM、苹果、facebook、twitter、VISA等大数据先锋们具价值的应用案例,向我们阐述了什么是大数据。同时为我们揭示了大数据时代下的3种思维变革、3种商业变革和2种管理变革。
【简评】:本书的逻辑结构清晰,可读性很强,阅读起来也很流畅。内容方面,通过大量的案例,让我们轻松了解哪些表面看来很晦涩的概念。对于想了解大数据以及大数据在商业时代如何应用的朋友来说,这是一本很不错的书籍。
如果你已经阅读过此书或者正在阅读,欢迎在评论去分享你对这本书的看法。