大数据,英文翻译为Big Data,听上去科技感十足的一个词,到底跟我们的生活有什么关系呢?我们不妨先从一个故事开始认识一下它。
在信息化领域,国外很多企业走在时代前列。美国一家零售连锁商塔吉特,很多年前就开始利用销售过程汇总的数据进行分析。有一段时间,塔吉特公司通过他们所有门店里女性的消费记录数据,进行“怀孕预测”。对于零售商来说,发现一个顾客是否怀孕非常重要。因为一旦有了小孩,就意味着一个家庭的消费观念会发生很大变化,如果能预测消费者的怀孕趋势就能及时向她们推送孕期每个阶段对应的优惠券,从而刺激消费。值得注意的是,有一天,一个中年男人怒气冲冲的来到塔吉特的一家零售店,他向商店经理投诉:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,你们这样的行为是在鼓励她怀孕吗?”。塔吉特商店的经理几天后打电话向这个男人道歉,这个男人却感到非常抱歉,他跟塔吉特的经理道歉说:“我跟女儿谈过了,她的预产期是8月份,是我自己没有意识到这件事情。”
这就是一个典型的大数据案例,大数据如此神奇,它可能比你的父母更了解你的小秘密。你喜欢什么款式的衣服,你最爱哪家甜品店,你最喜欢的明星是谁……大数据就像你的影子,对你了如指掌。
提起大数据,人们最先想到的一本书往往是《大数据时代》。
《大数据时代》的作者维克托•迈尔•舍恩伯格被誉为“大数据商业应用第一人”,十几年前就已经洞察到大数据的趋势,一直潜心研究大数据技术,不仅在哈佛大学、牛津大学等著名学府任教,也为微软、IBM等知名企业提供咨询服务,同时还是众多政府高层的智囊团。维克托将自身对大数据技术的研究与商业实践、政府决策相结合,进一步获得对大数据的全球视野。
《大数据时代》并不是一本艰涩难懂的技术书,而是一本通俗易懂的案例书,如果你想要了解我们身处的这个世界、这个时代,如果你想要对个人职业生涯选择和家庭财务决策有更宏观的认识,那么你需要读一读这本《大数据时代》。
我们身处一个数据大爆炸的时代,世界的数据以一种超乎想象的速度裂变。哲学上讲:量变引起质变。当数据累积到一定程度,必然引起质变。数据的价值也就由此诞生。维克托在《大数据时代》中强调了大数据给我们带来的三个转变:
更多:不是随机样本,而是全体数据
更杂,不是精确性,而是混杂性
更好,不是因果关系,而是相关关系
01 大数据时代,样本=总体
大数据的出现对社会科学提出了挑战,社会科学是非常依赖样本分析、研究和调查问卷的学科,而大数据时代,数据成为最容易获得的信息,我们不再受困于数据量的多少,开始利用所有的数据。
有数据证明,采用样本分析法的正确率可达97%。看上去3%的错误率似乎可以接受,但也要就事论事。现在大数据的核心在于预测,为了更精准的预测,自然是越少错误率越高,而当数据量足够大时,当样本=总体时,数据预测的准确性就能大大提高。
这有点像我们听一首歌,如果把一首歌切割成一些长短不一的片段,很有可能你能猜出这是什么歌,也有可能你猜不出来;但如果给你听一首完整的歌,那你一定就能知道这首歌是什么。
大数据以前的时代是,用尽可能少的数据获得尽可能多的信息,当人类进入到大数据时代时,是用尽可能多的数据获得信息。
每次出去旅游,想抢到便宜的机票简直是一场大战。打开购票网站,今天刷一下贵了100,明天刷一下便宜了200,后天再刷又贵了200,每次我都想怎么才能知道机票什么时候最便宜。原来,这个功能已经有公司实现了。有一家预测机票价格的公司叫Farecast,Farecast的预需要海量数据的支持,为了提高预测的准确度,Farecast收集了么过商业航空产业中每一条航线上每一架飞机内每一个座位,在一年内的综合票价记录。如今,Farecast已经有大约2000亿条的飞行数据,最终实现票价预测的准确度高达75%。如果没有海量数据的支持,所谓的票价预测基本约等于0。
Farecast的创始人埃齐奥尼说:“这只是一个暂时性的数据,随着你收集的数据越来越多,你的预测结果会越来越准确。”
02 大数据时代,允许不精确和错误
海量数据的出现,也意味着大量混杂的、不精确的、甚至错误的数据出现。大数据时代95%的数据都是混乱的,如果还坚持传统“小数据”的精确算法,那将彻底错过大数据的价值。
为什么“小数据”要精确?
因为“小数据时代”或者像上文提到的“样本分析法”中,能收集到的信息量有限,所以必须保证数据尽量精确,才能提高预测的准确度。这是一个概率学问题,简单来说,给你三个苹果,只有一个是好的,那你挑到好苹果的概率是1/3,如果有100个苹果,即使有一半都是坏的,挑到好苹果的概率也有1/2。
胡适曾经讽刺过“差不多先生”,因为差不多先生的口头禅就是:凡事只要差不多就好了,何必太较真呢?“大数据”从某种角度来说也是一位“差不多先生”,要让我们习惯他可能还需要时间。
03 大数据时代,“是什么”比“为什么”重要
小朋友很小的时候就要读《十万个为什么》,培养对世界的好奇心,学习的过程就是搞清楚每一个现象背后的原因,这是我们从小到大养成的惯性思维。
大数据时代,这种思维需要变一变了。数据量的剧增,使得事物与事物之间的联系越来越复杂,通过复杂的相关关系,大数据犹如神探破案,找出蛛丝马迹。现在,只需要知道“是什么”就够了,没必要知道“为什么”。
建立在相关关系分析法基础上的预测是大数据的核心。据统计,亚马逊成交量的三分之一都是来自于相关推荐的购买。当我在亚马逊上购买这本《大数据时代》时,系统还会同时给我推荐另外几本相关的书,比如吴军的《智能时代》,涂子沛的《大数据》等,这些书正好帮我构成了一个“大数据”的主题阅读书单,这样我就很可能把这一系列书全部加入购物车。
随着技术的发展,收集和分析数据的成本越来越低,人们更热衷于收集海量的数据,来预测分析可能出现的问题。比如,大数据可以用来预测汽车故障,这种功能很适合物流、快递行业。大型的物流快递公司会有数量众多的运输车队,一旦车在运输过程中出现故障,造成的延误、再装载损失都很严重。通过传感器检测汽车各种零件的使用情况,能及时预测哪些零件可能在什么时候出现故障,以便提前进行检查维修,这样就能大大减少成本损失。这种预测并不能告诉你,“为什么”会出现故障,而对于快递公司来说,也只需要只知道“是什么”将出现故障就足够了。
数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。
大数据时代,我们的生活将发生翻天覆地的变化,就像望远镜能让我们感受浩瀚的宇宙星空,显微镜能让我们观察最小颗粒的微生物。大数据是一种收集和分析海量数据的新技术,能帮助我们更好地认识世界、理解世界。大数据不是冰冷的事实,它其实分散在日常生活的各个角落,从思维模式上先给我们带来一场变革,然后当我们用大数据的思维看世界时,才发现“凡是过去,皆为序曲”。
未来已来,大数据时代裹挟着未来世界的新算法,新技术像潮水一样涌来,只有勇于拥抱变化的人才能急流勇进。大数据时代,更多的数据,更多不确定性,更复杂的相关关系,提供了“更多,更快,更好”的可能。