“大数据”这个词汇已经被滥用,所有的数据使用者都会说这个词,今天就大数据,谈谈通过大数据得出的二条结论和三个用途。
结论一,别人不知道,Google知道
根据 Google 的记录,“无性婚姻”这个关键词组合的搜索次数比“不幸婚姻”高3.5倍,比“无爱婚姻”要高8倍。人们对婚姻最大的抱怨就是无性婚姻!所以无性婚姻是比人们想象中大得多的问题,只不过在公开场合调查中,人们不愿意说实话而已。
一个被无性婚姻困扰的人,平时没有向任何人抱怨过,甚至面对问卷调查他还吹嘘了一番。可是夜深人静之时,他忍不住想要了解自己的无性婚姻到底正不正常,于是把问题输入了 Google 的搜索框。
结论二,奥巴马当选总统,种族歧视就不存在了吗?
真实数据显示结论是,种族歧视有很大的影响,表现在选举投票上,那么如果这是这样的话,那不是奥巴不会是第一位黑人总统了吗?
不是不存在,而是奥巴马的优势太大了
三大用途
首先,可以从罕见案例中找出规律;
比如数据科学家们找出患胰腺癌的前兆,是后背痛,皮肤变黄
其次,可以量化一些效应的大小;
我们知道好天气能让人心情愉快,而阴雨绵绵或者是寒冷的天气,则让人心情也糟糕。美国有些地方,像芝加哥的天气就常常是阴冷的;而有些地方,像加州和夏威夷,就常常是阳光灿烂。
好,那么现在有个问题:一个住在芝加哥的抑郁症患者,为了治疗抑郁症,获得好心情,他是不是应该搬家到夏威夷去呢?
这个问题的关键就在于我们得知道搬到夏威夷会缓解抑郁症,但是我们不知道这个缓解的程度是大是小。我们需要一个量化的评估。
Google 的搜索数据可以帮助你。研究显示,住在夏威夷的人,搜索“抑郁症”的比率,比像芝加哥这样的寒冷地区低了40%。这个效果有多好呢?要知道,哪怕最好的抗抑郁药物,也只能让抑郁症的发病率减少20%。
那如此说来,如果你一到冬天就抑郁,最好的办法不是吃药,而是搬到夏威夷去。大数据告诉我们,搬家的效果,大约是吃药的两倍。
最后,大数据可以得出一些反直觉的结论;
例如,假设现在你有两个潜在的结婚对象。第一个人跟你有很多共同的朋友,第二个人则是一个圈外人,你不熟悉他/她的朋友,他/她也不熟悉你的朋友。那么请问,如果你想要的是长期的关系,你应该跟谁结婚呢?
直觉来说,也许应该选第一个人。这个人跟你的朋友们相处融洽,那就说明你们有很多共同点,想必结婚之后你们两个也会相处得很好。对吧?事实并非如此
不过任何统计方法以及模型得出的结论都有其局限性,大数据得出的结论,在我们生活中的应用中作为参考即可。