大数据思维 -- 全量数据、纷杂与错误、相关关系

Introduction

大数据的核心是预测。人类所能处理的数据是有限的,计算能力和算法的能力也永远有限;但是随着数据量变大、算法的作用被削弱(与其说被削弱,不如说是数据本身的能量增大,需要的算法能量没有以前那么多)。因此,在大数据时代,数据是最重要的,算法其次,而计算能力则与这两个相辅相成。

全量数据

以前受制于数据样本量的限制,对数据本身的结构化和精确度要求都比较高,因为只有这样,有限数据能发挥的最用才能最大化(这与统计学中的“用尽可能少的数据来证实尽可能重大的发现”这一目的不谋而合)。但是,如今随着数据量的剧增(虽然算法的性能和计算能力都在发展),对数据结构化和标签化、增进精确度这些行为的难度和成本剧增先抛开不谈,光是用之前为少量数据设计的复杂算法而骤降的性价比来说,对数据样本的限制都是不科学和不值得做的。因而,在大数据时代,“样本=全量”这一统计学悖论变得有价值。因为此时追求的是全面,追求数据的精确度意味着损失和遗漏

纷杂与错误

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能够适用于传统数据库的。如果不接受数据的纷杂和混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,包容纷杂混乱,我们才能打开一扇从未涉足的世界的窗户。
大数据通常是用概率说话,而不是板着“确凿无疑”的面孔。少数据下运行的好的算法会随着数据量的增多而丧失优势,大数据不仅让我们不再期待精确性,也让我们无法实现精确性,而且大数据所带来的好处足够让我们接受不精确的存在(精确是为了掩饰某一方面的贫乏,数据精确很有可能实在假装世界井然有序)。
随着数据的增加,错误率也会相应增加。但在多数情况下,与致力于避免错误相比,对错误的包容会带给我们更多的好处

相关关系

知道是什么就够了,大数据时代,因果关系所需要的精确性因其高额的额外成本是不应该被承受的。
大数据存在“黑盒子”,计算机和计算结果之间存在不确定性和不可预知性,分析原因此时无疑增加了工作成本,而且对于拿自动化产出的结果做决策的场景下,分析原因是毫无意义的。
洞察的目的是知道“是什么”,而不是“为什么”。而找到“是什么”用数理关系比因果关系看起来更科学(即便在逻辑上稍显劣势)。相关关系即“一个数值的变化和另一个数值的变化的关系”,它没有绝对,只有可能性,而建立在相关关系分析法基础上的预测是大数据的核心,此时可以把“数据”看成是“经验云”。
人们都希望通过因果关系来了解这个世界,不过只要仔细观察,就会发现万事万物皆有因缘。靠因果关系的执着,类似于靠直觉生存的思维惰性。

Conclusion

  • 大数据的核心是预测,而建立在相关关系分析法基础上的预测也是大数据的核心;
  • 追求精确数据是因为数据贫乏,接受非结构化数据,才有可能用好大数据,获得其带来的增益,大数据更强调数据的完整性和混杂性;
  • 只有接受数据的不精确,包容错误,大数据能带来更多的好处;
  • 因果关系类似于“直觉”,相关关系更关注可能性。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容