最近在读一本书《大数据时代》。那本书给我一种莫名其妙的感觉,他的话太多了,或者说作者想用很多的理论来阐述书中的论点。
带到那种感觉去网上找了一下书评,发现有很多人在吐槽这一点最后网友得出了一个一致的看法,这是一本用于布道,科普,很适合于文科生看的书(那一点并不带有偏见,这本书确实和我原来看的书不一样,是一本很容易懂的一本理科方面知识的话太多的书),本人也比较赞同,但是最后那一点偏激,私认为有那么理科生的一丝骄傲。
那本书为并不了解大数据的人提供了一些比较新颖的观点(然而这只是在我的眼中看上去比较新颖,因为那本书出自于2013年,而现在已经到了2017年了,过了足足四年。)。
一、在未来相关关系将比因果关系更为重要。
当对所有数据进行分析后,能够得到一个相关关系,然后我们就可以直接将其用于实际操作,而且没必要知道这是为什么。因为大数据分析并不能告诉你那个事情的原因。大数据只能告诉你将会发生什么,或者说是什么。
二、总体数据将取代随机抽样。
随机抽样是在人们没有办法获得大量数据为前提下发明的一种比较简陋,但却比较可靠的一种统计方法(数据采集方法)。但是随机抽样及其依靠其随机性,因为一旦收集样本的过程中存在偏见,这会对数据分析的结果产生巨大的影响。为什么特朗普是被主流媒体所抛弃,但却赢得总统大选的人?因为在美国最新民调的时候存在一定的偏见,并没有把美国底层人民的意愿包含进来或者说没有分配足够多的样本比例。而现如今获取数据的成本相对过去十分低廉与方便(原来都是人工去收集),并且能够有强力的数据分析工具对其进行分析,所以总体数据将进一步一步的取代随机抽样。
在那里说个题外话,其实我认为,在进行民调的时候完全不用去打电话或者说发传单,而是直接通过网络上有的信息,比如推特facebook或者说是,一些比如人人网还有qq信息和qq空间之类的互联网产品。可以对公开的信息进行过数据分析,然后得到一些趋势化的东西。
三、混杂性将的精确性更重要。
那林的确最开始让我感觉很奇怪,等确实原先追求精确性是因为那时的测量工具不行提高精确度会给你带来很高的回报。但是就像边际效益递减一样,如果你现在还在追求数据的精确性的话,你所得到的回报微乎其微或者说意义不大。而混杂性的确为人们提供一些不同的东西,因为原先那些东西并不为人所记载或者是分析。所以当你对其信息进行分析时,你会发现很多原来都没有注意到的相关关系。
因为之前在网上看书评去了不少的网站,其中就有一个评论,大概意思是这样:经验将代替理论。黑人问号???怎么就代替了啊,理论也是前人的经验呀!再说了,现在计算机如此发达,我们这些数学专业的人也没见得放弃手算。虽然的确出现了一些弱化理论的情况,这一点,从对相关关系的重视就不难看出。私认为大数据并不会代替什么,他只会修正或者是更新原来并不完善的理论与观点,而且大数据重在相关关系,而非因果。所以理论依旧会存在在这个世界上。