最近在读维克托.迈尔舍-恩伯格的大数据时代,以目前发展趋势来看觉得是理所当然的事,但在当时写这篇文章时,大数据还出入方兴未艾之际,这种超前的思想具有颠覆性也不为过。虽然这本书不是很长,但传达的思想觉得很有价值。之前有人说过在人工智能的时代,云计算好比发动机,大数据好比是燃料。大数据时代下,云计算为我们处理海量数据提供了一把钥匙,开启了一场数据革命的思潮。有人说大数据到底能干啥?这本书会给了我们所要的答案。其实大数据的核心就是预测。通常被视为人工智能的一部分,或者更确切说,被视为机器学习的一部分。但这个定义太随性,不够精确。因为大数据并不是要教机器像人一样思考。恰恰相反,它只是将海量的数据放进我们所创建的数学模型(也可说是数学算法吧)进行训练学习,通过数据分析来预测事情发生的可能性。
这本书所传达的思想,其实就是大数据时代下的三个转变,也是大数据的精髓所在。第一个转变是不再依赖随机采样。采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物。大数据时代下,样本=所有数据。第二个转变是不在热衷于追求精确度。拥有了大数据,我们不在需要对一个现象刨根究底,只需要掌握大体的发展方向即可。当然不是说我们就完全放弃了精确度,而是当我们拥有了海量的数据,绝对的精准不再是我们所追求的主要目标。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。第三个转变是不在热衷于寻找因果关系。而是寻找事物之间的相关关系。自古以来,人类一直习惯于寻找事物之间的因果关系,而大数据时代,我们无须在紧抓着事物之间因果关系不放,而是去寻找事物之间相关关系。相关关系或许不能准确地告知我们某件事情为何发生,但它会提醒我们这件事情正在发生。这个提醒预测作用能对未来的事物发展规律的把握具有极大的帮助,可以帮助我们更好地趋利避害,或者创造更有利的价值,我想这就是本书提供给我们最有价值的观点吧。
执迷于精确性是信息缺乏时代和模拟时代的产物。在那个信息贫乏的时代,任意一个数据点的测量情况都对结果至关重要。所以我们需要确保每个数据的精确性,才不会导致分析结果的偏差。如今,大数据给我们带来的利益,让我们能够接受不精确的存在了。莱维斯说:“预测给我们知识,而知识赋予我们智慧和洞见。”大数据的核心在于预测,有时候事物的发展趋势比精确性更重要。
Hadoop是与谷歌的MapReduce系统相对应的开源式分布系统的基础架构,它非常善于处理超大量的数据。 大的数据库并不是固定在某个地方的,它一般分散在多个硬盘和多台电脑上。为了确保其运行的稳定性和速度,一个记录可能会分开存储在两三个地方。如果一个地方的记录更新了,其他地方的记录则只有同步更新才不会产生错误。传统的系统会一直等到所有地方的记录都更新。
相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂行,帮助我们进一步接近事实的真相。大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡,而是通往未来的必然改变。但是在我们达到目的地之前,我们有必要了解怎样才能到达。
“数字化”和“数据化”是两个不同的概念,数字化指的是把模拟数据转换成用0和1表示的二进制码;数据化是指把一种事物或者某种现象量化的过程。数字化带来了数据化,但数字化无法取代数据化。数据化是将模拟数据变为计算机可读的数据,和数据化有本质上的不同。计量和记录的需求是数据化的前提,计量和记录一起促进了数据的诞生,所以量化一切是数据化的核心。
社交网络上发表的状态、心情都可以反映一个人的情绪,通过统计分析一个人发的状态信息,可以将其情绪数据化,这样可以对人进行情感分析,可以做性格预测,甚至反腐。因为大数据时代,数据公开更有利于政府运营效率,能使权利在阳光下运行。
所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。过分强调技术和技能而忽视数据本身的重要性也是不可取的,数据才是最核心的部分。
我们往往倾向于把专业人才看得比全才更重要,也就是说深度就是财富。然而,专业技能就像精确性一样,只适用于小数据时代,当时人类掌握的数据永远不够多也不够准确,所以需要依赖直觉和经验指导。在那个时代,经验是先决的,因为只有通过这种无法从书本上和别人口中得到的、埋藏在潜意识里的知识的积累,我们才能做出更明智的决定。
“ ”