大数据时代
第三章--不是因果关系,而是相关性
这一章主要是在告诉我们:在数据变得更多更繁杂的时候,我们只要知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非要知道现象背后的原因,而是让数据自己“发声”。
只要知道“是什么”就够了,没必要知道“为什么”。这就是我们今天所讲的相关性。所谓的相关性,是指两个事物之间的关联程度。而这,有区别于“因果性”。我们不再把重点放在为什么上了,更多是分析事物的两者是什么。
亚马逊的推荐系统,是针对于客户的信息数据量很大,难以处理,并且把顾客与其他顾客进行比较繁琐的技术操作这一情况,找到另一种解决方法,即找到产品之间的关联性,也就是个性化推荐系统。
相关关系的核心是两个数据值之间的数理关系。
1、相关关系通过识别有关的关联物来帮助我们分析一个现象。
2、相关性没有绝对,只有可能性。
在社会环境下寻找关联物只是大数据分析法采取的一种方式。同样有用的一种方法是,通过找出新种类数据之间的相互联系来解决日常需要。比方说,一种称为预测分析法的方法就被广泛地应用于商业领域,它可以预测事件的发生。
例子
- 美国折扣零售商塔吉特与怀孕预测,基本上来说,就是收集一个人可以收集到的所有数据,然后通过相关关系分析得出事情的真实状况。
通过找出一个关联物并监控它,我们就能预测未来。
例子2
- UPS与汽车修理预测:收集和分析数据的花费比出现停产的损失小得多。而当收集、存储和分析数据的成本比较高的时候,应该适当地丢弃一些数据。
“是什么”,而不是“为什么”
通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好地了解了这个世界。
- 在大数据时代,新的分析工具和思路为我们提供了一系列新的视野和有用的预测,我们看到了很多以前不曾注意到的联系,还掌握了以前无法理解的复杂技术和社会动态。
例子3
- 幸福的非线性关系
相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。
例子4
- Kaggle,(被谷歌所收购)一家为所有人提供数据挖掘竞赛平台的公司,举办了关于二手车的质量竞赛。二手车经销商将二手车数据提供给参加比赛的统计学家,统计学家们用这些数据建立一个算法系统来预测经销商拍卖的哪些车有可能出现质量问题。相关关系分析表明,橙色的车有质量问题的可能性只有其他车的一半。
大数据,改变人类探索世界的方法
因为不受限于传统的思维模式和特定领域里隐含的固有偏见,大数据才能为我们提供如此多新的深刻洞见。
大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡,而是通往未来的必然改变。但是在我们到达目的地之前,我们有必要了解怎样才能到达。