Introduction
大数据的核心是预测。人类所能处理的数据是有限的,计算能力和算法的能力也永远有限;但是随着数据量变大、算法的作用被削弱(与其说被削弱,不如说是数据本身的能量增大,需要的算法能量没有以前那么多)。因此,在大数据时代,数据是最重要的,算法其次,而计算能力则与这两个相辅相成。
全量数据
以前受制于数据样本量的限制,对数据本身的结构化和精确度要求都比较高,因为只有这样,有限数据能发挥的最用才能最大化(这与统计学中的“用尽可能少的数据来证实尽可能重大的发现”这一目的不谋而合)。但是,如今随着数据量的剧增(虽然算法的性能和计算能力都在发展),对数据结构化和标签化、增进精确度这些行为的难度和成本剧增先抛开不谈,光是用之前为少量数据设计的复杂算法而骤降的性价比来说,对数据样本的限制都是不科学和不值得做的。因而,在大数据时代,“样本=全量”这一统计学悖论变得有价值。因为此时追求的是全面,追求数据的精确度意味着损失和遗漏。
纷杂与错误
执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能够适用于传统数据库的。如果不接受数据的纷杂和混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,包容纷杂混乱,我们才能打开一扇从未涉足的世界的窗户。
大数据通常是用概率说话,而不是板着“确凿无疑”的面孔。少数据下运行的好的算法会随着数据量的增多而丧失优势,大数据不仅让我们不再期待精确性,也让我们无法实现精确性,而且大数据所带来的好处足够让我们接受不精确的存在(精确是为了掩饰某一方面的贫乏,数据精确很有可能实在假装世界井然有序)。
随着数据的增加,错误率也会相应增加。但在多数情况下,与致力于避免错误相比,对错误的包容会带给我们更多的好处。
相关关系
知道是什么就够了,大数据时代,因果关系所需要的精确性因其高额的额外成本是不应该被承受的。
大数据存在“黑盒子”,计算机和计算结果之间存在不确定性和不可预知性,分析原因此时无疑增加了工作成本,而且对于拿自动化产出的结果做决策的场景下,分析原因是毫无意义的。
洞察的目的是知道“是什么”,而不是“为什么”。而找到“是什么”用数理关系比因果关系看起来更科学(即便在逻辑上稍显劣势)。相关关系即“一个数值的变化和另一个数值的变化的关系”,它没有绝对,只有可能性,而建立在相关关系分析法基础上的预测是大数据的核心,此时可以把“数据”看成是“经验云”。
人们都希望通过因果关系来了解这个世界,不过只要仔细观察,就会发现万事万物皆有因缘。靠因果关系的执着,类似于靠直觉生存的思维惰性。
Conclusion
- 大数据的核心是预测,而建立在相关关系分析法基础上的预测也是大数据的核心;
- 追求精确数据是因为数据贫乏,接受非结构化数据,才有可能用好大数据,获得其带来的增益,大数据更强调数据的完整性和混杂性;
- 只有接受数据的不精确,包容错误,大数据能带来更多的好处;
- 因果关系类似于“直觉”,相关关系更关注可能性。