作者:维克托·迈尔-舍恩伯格 译者:盛扬燕 周涛
出版社:浙江人民出版社
2016年,Big Data成为一个非常火的热词,所有产品和项目,只要和大数据挂上钩,只要能扯上大数据,瞬间这个东西就变得高大上了。虽然人人都在提大数据,都想在这个领域分一杯羹,就目前国内而言,真正能拥有大数据的应该也只要BAT了。值得庆幸的是,大数据的门槛并不高,任何中小企业都能涉入这个行业;另外,中国有13亿多人口,这就是大数据的摇篮,每天都会产生非常庞大的数据,如今,中国学者发表了国际上绝大数的大数据论文,未来的中国一定会是大数据的领跑者。
互联网时代,尤其是社交网络、电子商务与移动通信把人类社会带入了一个以“PB”(1024TB)为单位的结构与非结构数据信息的新时代,而且这个数据还在继续增大。
大数据时代处理数据理念上的三大转变:
要全体不要抽样
以前要了解全国人们的收入情况,会采取随机抽样的方式,而且随机抽样并不是随意抽样,是考虑地域,年龄等各种限制条件的随机抽样。大数据时代,完全可以做到存储、处理所有人的数据。即“总体=样本”的时代。
要效率不要绝对精确
大数据时代要求我们重新审视精确性的优劣。在信息贫乏的时代,任意一个数据点的测量情况都对结果至关重要。所以,我们需要确保每个数据的精确性,才不会导致分析结果的偏差。就如我们抽样的每个样本,任意一个坏数据,都会导致结果偏差。而大数据时代,出现的坏数据,对结果的影响并不大。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常我们不会再花大力气去提升数据的精确性。这又是一个关注焦点的转变,正如以前,统计学家们总是把他们的兴趣放在提高样本的随机性而不是数量上。如今,大数据给我们带来的利益,让我们能够接受不精确的存在了。
要相关不要因果
不再探求难以捉摸的因果关系,转而关注事物的相关关系。分析大数据主要为了预测未来“是什么”,而不是“为什么”。因为很多时候我们以为我们找到了事情背后的原因,实际上却没有找到。更多时候知道了“是什么”就足够了。只用知道是什么,不用知道为什么,相关关系帮助我们更快、更好地了解了这个世界。生病了,大数据分析你所有细胞的情况,告诉你该吃什么药,该注意怎么预防,而不需要知道为什么。
最后描绘了大数据帝国前夜的脆弱和不安
包括产业生态环境、数据安全隐私、信息公正公开等问题。但对于普通人来说,大数据时代最关心的还是隐私问题。不知不觉中,个人的一举一动都暴露在政府甚至私人企业之下;另外,还面临潜在的泄露风险。对此,作者提出了使用者承担责任的解决办法,而不是过去那种流于形式的使用授权。大数据甚至能预测一个人的犯罪动机,这给监管者带来的难题是,预测一个人要犯罪,惩罚还是不惩罚?在这点上,社会达成"个人仅需对行为而非动机负责"的共识非常重要。因此,不让我们成为数据的奴隶,探讨如何让数据真正为我们所用,提供最好的参考答案,帮助人们做出最明智、最正确的选择,才是终极意义所在。
悄然之间,大数据时代正在向我们走来,敞开自己的怀抱,主动学习,拥抱Big Data,成为大数据时代的建设者和受益者。