【转载】大数据仅仅是概念还是有实用性

从去年开始,不管是互联网行业还是其他行业,“大数据”一词开始频繁出现。

“概念”性质的东西在中国的互联网圈子总是可以快速传播,这里面有很多原因,其中就有整体氛围所致:大多数互联网的创业者都是希望通过前瞻性的创新来改变世界,受到资本追捧,最终套现。在这个过程中,概念飞快的传播、包装,成为各种打着标签的产品。而实用主义者只被动接受,缺乏正确认知深刻的探索。

从下图可以看出,2008年大数据概念开始传播后,在百度和Google的“大数据”和“Big Data”的检索趋势(下图数据中Baidu的PV加权处理,和Google相等同来体现趋势对比):

大数据这词,百度的中文检索的爆炸性远远高出英文的Google检索。

这就是硅谷臭名昭著的技术成熟度曲线(炒作周期),而在国内互联网行业被传承和发扬的更厉害。

开个玩笑:“目前的大数据在国内,就好比是一堆青春期的孩子在谈论“性”,每个人都喜欢谈,如果不谈就好像自己不正常,但只是很少人真正有经验。真正有经验的,却又闭口不言,笑笑而已”。互联网行业发展迅速,这些孩子早晚都会成人,但是目前为止,绝大多数受益者只是那些打着标签的厂商,就好比卖给青春期孩子非法出版物的商贩。

大数据到底是什么?

那到底什么是大数据呢?大数据仅仅是个概念还是有真正的未来呢?

首先,所有的数据的作用,都是寻找规律。

唯物主义辩证法说:世界是物质的,物质是运动的,运动是有规律的,而规律是可以掌握的。不管是最早的统计学,计算机出现后的数据分析,数据挖掘,以及到现在的大数据。我们都是在探索世界中的规律,试图通过规律来了解这个世界。

在没有出现计算机和互联网的时代,前辈科学家奠定了数学和统计学的基础。计算机出现后,对数据的存储和计算能力大幅度增加,整理和分析数据的能力也在大大增加。而互联网的出现和发展,让搜集的手段进一步丰富,数据量大大增加。通过数据找规律的这个游戏也在不断的丰富。

这个过程,数据一方面越来越大,另一方面越来越“小”的,怎么说呢:这个过程的进化可以简单的说成“对整体样本的覆盖” 和“对微观数据价值的发掘”。数据的精髓在于抽样和模型,因为技术手段不可能获取所有的对象特征,只能通过部分模拟全部,通过抽象模型来描述对象。而计算机和互联网出现后,对信息获取能力,和对数据的分析和挖掘能力大大加强,对试图探索的样本覆盖越来越大,而对对象本身的描述越来越细致。

好比我们想知道这一车苹果的质量。以前只随机抽样100个,看看外观有没有生虫坏损;现在抽样7000个,每一个苹果用30多项数据来描述苹果特征和质量。以后不需要抽样了100%的都获取数据,然后每个苹果100多项数据描述特征和质量,甚至整个生长周期数据。

但是不管是统计学,数据分析,数据挖掘,还是现在的大数据。我们的任务自始至终没有变化:通过收集、整理、分析数据等手段,来寻找规律、推断本质、甚至预测未来。

不管在任何一个阶段,这个任务都是有局限的,我们仅仅可以推测对象本质的一部分而不是全部。在技术手段发展到一定阶段可以产生新的技术和方法论,也可以在推测和预测上更近一步,走出的这一步可以大大提高生产力,这也是大数据的价值所在。

具体的行业中举例

接下来我们选择一个更容易抽象举例的行业来说明:篮球(NBA)。

在NBA的早期,由于商业化程度不够,对一场比赛的数据统计非常有限,不管是球员、教练、或者球队经理对球员的认识都是在一种直觉上,或是最基础的一些统计。

1986年NBA开始了完整的数据统计。所以现在的新闻都爱用:“自从1986有统计以来,这是第N个球员单场打出xxx数据……”NBA的统计正式进入了现代,数据库技术的成功应用,让你可以从www.nba.com 随意找到历史数据。

也从这一天起,另一个话题浮现了。正如我们喜欢把武侠小说人物武艺列高低、列座次,数据完整化之后,大量的数据引用成了媒体的新爱好。于是,“得分利器”、“防守悍将”、“投篮大师”这些词汇,逐渐被“每场能得多少分”、“完成多少个篮板+封盖”、“投篮命中率”等覆盖了。所有的球迷都开始喜欢数据了。

但是只看数据,又会很难理解:年轻时的马布里,一个场均20分7.6助攻的人,怎么会被叫做独狼?看数据,会难以理解,鲍文这个数据平淡无奇,抢断毫不华丽的家伙,防守却远比两届抢断王魔术师强大得多?又怎么能理解, 斯塔德迈尔职业生涯场均8.8篮板1.4盖帽,加内特在凯尔特人也就场均8.9篮板1.4盖帽,但KG的防守和斯塔德迈尔,那就是天壤之别呢?

实际上,就是因为数据太单一,对球员的微观数据的描述太少,根本无法只用数据来描述一个球员在球场上发挥的作用或者特点。

21世纪,细节化微观数据越来越多的被融入NBA,专业的NBA数据挖掘公司Synergy Sports出现了。《SI》披露过一份篮球之神乔丹的专业统计:公牛80.2%的进攻要经他之手; 83.9%的投篮是跳投;54.3%的投篮来自于球场右侧;17%的进攻来自拉开单打;单打时运2.67步后拔起跳投;对手干扰到位情况下,命中率是46.3%;等等。

到了这一地步,数据开始进入到新的时代。而今年的NBA季后赛,美国媒体开始把场均奔跑距离,速度,最快速度等等也加入到了分析的维度。新的技术手段加大了微观数据价值的发掘。也许我们可以称之为:大数据。

正确的看待大数据

数据的确不会说谎。但要精准说明一件事,需要足够多的数据,和足够微观的挖掘。但数据,永远不会足够多。例如篮球比赛,数据与感知,会永远的交织下去。越来越多的数据模型,会给出无限接近印象的结果;但是当数据或感知任何一方一统天下时,谈论篮球,也就不复有乐趣了。而不论对数据多么了解,也需要教练设计战术、发挥球员特定,激励团队士气,才能赢得比赛,数据本身不会“赢球”。

大数据是一种进步,但是我们完全没有必要神话,更没有必要妖魔化。大数据是一种概念,也只是我们认知世界发展到目前阶段顺理成章的产物。理智的看待大数据,让好的为生产和研究服务,更多的发挥我们自己的创新性和主观能动性,会更有价值。

原文链接:

http://mp.weixin.qq.com/s?__biz=MzA3NTcwOTIwNg==&mid=200184421&idx=1&sn=bd6ed465c1bcb492d88c0d6413ac9294&scene=0#rd

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容