从去年开始,不管是互联网行业还是其他行业,“大数据”一词开始频繁出现。
“概念”性质的东西在中国的互联网圈子总是可以快速传播,这里面有很多原因,其中就有整体氛围所致:大多数互联网的创业者都是希望通过前瞻性的创新来改变世界,受到资本追捧,最终套现。在这个过程中,概念飞快的传播、包装,成为各种打着标签的产品。而实用主义者只被动接受,缺乏正确认知深刻的探索。
从下图可以看出,2008年大数据概念开始传播后,在百度和Google的“大数据”和“Big Data”的检索趋势(下图数据中Baidu的PV加权处理,和Google相等同来体现趋势对比):
大数据这词,百度的中文检索的爆炸性远远高出英文的Google检索。
这就是硅谷臭名昭著的技术成熟度曲线(炒作周期),而在国内互联网行业被传承和发扬的更厉害。
开个玩笑:“目前的大数据在国内,就好比是一堆青春期的孩子在谈论“性”,每个人都喜欢谈,如果不谈就好像自己不正常,但只是很少人真正有经验。真正有经验的,却又闭口不言,笑笑而已”。互联网行业发展迅速,这些孩子早晚都会成人,但是目前为止,绝大多数受益者只是那些打着标签的厂商,就好比卖给青春期孩子非法出版物的商贩。
大数据到底是什么?
那到底什么是大数据呢?大数据仅仅是个概念还是有真正的未来呢?
首先,所有的数据的作用,都是寻找规律。
唯物主义辩证法说:世界是物质的,物质是运动的,运动是有规律的,而规律是可以掌握的。不管是最早的统计学,计算机出现后的数据分析,数据挖掘,以及到现在的大数据。我们都是在探索世界中的规律,试图通过规律来了解这个世界。
在没有出现计算机和互联网的时代,前辈科学家奠定了数学和统计学的基础。计算机出现后,对数据的存储和计算能力大幅度增加,整理和分析数据的能力也在大大增加。而互联网的出现和发展,让搜集的手段进一步丰富,数据量大大增加。通过数据找规律的这个游戏也在不断的丰富。
这个过程,数据一方面越来越大,另一方面越来越“小”的,怎么说呢:这个过程的进化可以简单的说成“对整体样本的覆盖” 和“对微观数据价值的发掘”。数据的精髓在于抽样和模型,因为技术手段不可能获取所有的对象特征,只能通过部分模拟全部,通过抽象模型来描述对象。而计算机和互联网出现后,对信息获取能力,和对数据的分析和挖掘能力大大加强,对试图探索的样本覆盖越来越大,而对对象本身的描述越来越细致。
好比我们想知道这一车苹果的质量。以前只随机抽样100个,看看外观有没有生虫坏损;现在抽样7000个,每一个苹果用30多项数据来描述苹果特征和质量。以后不需要抽样了100%的都获取数据,然后每个苹果100多项数据描述特征和质量,甚至整个生长周期数据。
但是不管是统计学,数据分析,数据挖掘,还是现在的大数据。我们的任务自始至终没有变化:通过收集、整理、分析数据等手段,来寻找规律、推断本质、甚至预测未来。
不管在任何一个阶段,这个任务都是有局限的,我们仅仅可以推测对象本质的一部分而不是全部。在技术手段发展到一定阶段可以产生新的技术和方法论,也可以在推测和预测上更近一步,走出的这一步可以大大提高生产力,这也是大数据的价值所在。
具体的行业中举例
接下来我们选择一个更容易抽象举例的行业来说明:篮球(NBA)。
在NBA的早期,由于商业化程度不够,对一场比赛的数据统计非常有限,不管是球员、教练、或者球队经理对球员的认识都是在一种直觉上,或是最基础的一些统计。
1986年NBA开始了完整的数据统计。所以现在的新闻都爱用:“自从1986有统计以来,这是第N个球员单场打出xxx数据……”NBA的统计正式进入了现代,数据库技术的成功应用,让你可以从www.nba.com 随意找到历史数据。
也从这一天起,另一个话题浮现了。正如我们喜欢把武侠小说人物武艺列高低、列座次,数据完整化之后,大量的数据引用成了媒体的新爱好。于是,“得分利器”、“防守悍将”、“投篮大师”这些词汇,逐渐被“每场能得多少分”、“完成多少个篮板+封盖”、“投篮命中率”等覆盖了。所有的球迷都开始喜欢数据了。
但是只看数据,又会很难理解:年轻时的马布里,一个场均20分7.6助攻的人,怎么会被叫做独狼?看数据,会难以理解,鲍文这个数据平淡无奇,抢断毫不华丽的家伙,防守却远比两届抢断王魔术师强大得多?又怎么能理解, 斯塔德迈尔职业生涯场均8.8篮板1.4盖帽,加内特在凯尔特人也就场均8.9篮板1.4盖帽,但KG的防守和斯塔德迈尔,那就是天壤之别呢?
实际上,就是因为数据太单一,对球员的微观数据的描述太少,根本无法只用数据来描述一个球员在球场上发挥的作用或者特点。
21世纪,细节化微观数据越来越多的被融入NBA,专业的NBA数据挖掘公司Synergy Sports出现了。《SI》披露过一份篮球之神乔丹的专业统计:公牛80.2%的进攻要经他之手; 83.9%的投篮是跳投;54.3%的投篮来自于球场右侧;17%的进攻来自拉开单打;单打时运2.67步后拔起跳投;对手干扰到位情况下,命中率是46.3%;等等。
到了这一地步,数据开始进入到新的时代。而今年的NBA季后赛,美国媒体开始把场均奔跑距离,速度,最快速度等等也加入到了分析的维度。新的技术手段加大了微观数据价值的发掘。也许我们可以称之为:大数据。
正确的看待大数据
数据的确不会说谎。但要精准说明一件事,需要足够多的数据,和足够微观的挖掘。但数据,永远不会足够多。例如篮球比赛,数据与感知,会永远的交织下去。越来越多的数据模型,会给出无限接近印象的结果;但是当数据或感知任何一方一统天下时,谈论篮球,也就不复有乐趣了。而不论对数据多么了解,也需要教练设计战术、发挥球员特定,激励团队士气,才能赢得比赛,数据本身不会“赢球”。
大数据是一种进步,但是我们完全没有必要神话,更没有必要妖魔化。大数据是一种概念,也只是我们认知世界发展到目前阶段顺理成章的产物。理智的看待大数据,让好的为生产和研究服务,更多的发挥我们自己的创新性和主观能动性,会更有价值。
原文链接:
http://mp.weixin.qq.com/s?__biz=MzA3NTcwOTIwNg==&mid=200184421&idx=1&sn=bd6ed465c1bcb492d88c0d6413ac9294&scene=0#rd