不知从何时开始,大数据这个词从初次问世的新奇高逼格,变成了现在的烂大街。好像凡是家互联网公司,就敢言必称“大数据”。
那么,我们听了这么久的大数据,到底什么是大数据?既然有大数据,那么是否就有小数据?一个新的概念的提出,必然是对原本概念的一个挑战,那么大数据和小数据相比又有什么区别呢?
我想这两者的本质区别并非只是数据量大小的差异,更是我们我们思维层面的变革。
今天,笔者就借舍恩伯格的《大数据时代》来和大家聊聊对于大数据的一些理解。舍恩伯格在书中提出来3个关于大数据时代思维变革的观点。
一、 更多:不是随机样本,而是全体数据
我们从中学时候,就开始接触“抽样”的概念。而抽样其实就是小数据时代通用的一种方法。基于当初的数据收集和处理的困难,我们无法做到对所有的研究对象进行数据分析,因此就选择抽样的方法,随机抽取部分样本,希望通过对随机样本的研究来说明整体的情况。这种方法最重要的就是在样本的选择上,如果选择样本的时候不符合“随机”性,那么其最终的研究结果便很有可能和事实相差甚远。
而随着互联网时代的到来,技术的飞速发展,我们记录收集信息的成本越来越低。从事互联网这一行的基本都知道,只要我们在产品内进行埋点,便能知道所有我们想知道的用户在产品上的行为,而具备强大的数据分析能力的计算机,更是使对所有数据进行分析成为了可能。解决了数据收集和分析的难题,使“样本=全体”得以实现,而这也是大数据时代第一个特点,我们再进行相关研究的时候无需进行抽样,对全量的研究是我们的结果更加全面。
二、更杂:不是精确性,而是混杂性
在以往的小数据时代,因为样本容量的有限性,为了保证最终结果的可信性,分析人员务必需要保证所选择样本数据的准确度。因为基于小样本的数据分析,如果其中不幸参杂了一个错误的数据,那很有可能导致最终的结果完全偏离现实。
而到了大数据时代,我们所收集到的数据越来越多,而其中必然会惨杂着为数不少的错误数据。但是在如此庞杂的数据库中。只有5%的数据是结构化且能用于传统数据库的,这也就意味着,如果我们还是如以往一般执迷于精确性,那么剩下95%的的非结构化数据都无法被利用,这将是一个多大的损失,我们坐拥宝山而不自知,白白让这么丰富的数据浪费。而如果要使用这些数据,我们就必须接受不精确性,接受数据的混杂,这样才能打开一扇从未涉足的世界的窗户。
当然,我们不再追求精确性,并不是意味着我们放弃准确。恰恰相反,接受数据的混杂,正是为了能够通过对更多数据的使用,来获取更有说服力、更加准确的结果。虽说混杂的数据中会参杂错误数据,但在庞大的全样本下,个别错误的数据对最终结果的影响也将被无限地缩小。
三、更好:不是因果关系,而是相关关系
今日头条根据用户以往的阅读数据来判定其感兴趣的内容,并进行针对性的推荐,但从不去纠结用户为什么喜欢这些内容;支付宝年度账单会根据各个省市的消费情况制作相关的排行榜,但也并不深究是什么导致了各个省市消费情况的差异......
诸如此类,绝大部分的互联网公司都是通过数据的分析,向我们传递着“是什么”的信息,而非“为什么”。而这也正是大数据时代所带来的第三个思维的变革:我们更多的开始关注相关关系,而不是因果关系。我们不必非得知道现象背后的原因是什么,我们更多的是让数据自己“发声"。
当然,这并不意味着因果关系已经没有作用。在大多数情况下。一旦我们完成了对大数据的相关关系分析,往往不会仅仅满足于知道"是什么”,我们会继续像更深层次进行探索,去研究因果关系,找出背后的“为什么”。
我们只是不会再把因果关系作为意义来源的基础。在大数据时代,即使很多情况下,我们依然指望用因果关系来说明我们所发现的相互联系,但是,因果关系实际上只是一种特殊的相关关系。相反,大数据推动了相关关系分析,相关关系往往能取代因果关系起作用,即使不可取代的情况下,它也能指导因果关系起作用。
大数据时代的来临,是我们测量、记录、分析世界的一个契机,他能帮助我们更好的认识社会,认识我们所生存的这个世界。而如果我们有意去抓住这个机遇,就务必需要从思维上去改变,去适应大数据时代的生存法则。