玩转大数据,重要的是思维的变革

不知从何时开始,大数据这个词从初次问世的新奇高逼格,变成了现在的烂大街。好像凡是家互联网公司,就敢言必称“大数据”。

那么,我们听了这么久的大数据,到底什么是大数据?既然有大数据,那么是否就有小数据?一个新的概念的提出,必然是对原本概念的一个挑战,那么大数据和小数据相比又有什么区别呢?

我想这两者的本质区别并非只是数据量大小的差异,更是我们我们思维层面的变革。

今天,笔者就借舍恩伯格的《大数据时代》来和大家聊聊对于大数据的一些理解。舍恩伯格在书中提出来3个关于大数据时代思维变革的观点。

一、 更多:不是随机样本,而是全体数据

我们从中学时候,就开始接触“抽样”的概念。而抽样其实就是小数据时代通用的一种方法。基于当初的数据收集和处理的困难,我们无法做到对所有的研究对象进行数据分析,因此就选择抽样的方法,随机抽取部分样本,希望通过对随机样本的研究来说明整体的情况。这种方法最重要的就是在样本的选择上,如果选择样本的时候不符合“随机”性,那么其最终的研究结果便很有可能和事实相差甚远。

而随着互联网时代的到来,技术的飞速发展,我们记录收集信息的成本越来越低。从事互联网这一行的基本都知道,只要我们在产品内进行埋点,便能知道所有我们想知道的用户在产品上的行为,而具备强大的数据分析能力的计算机,更是使对所有数据进行分析成为了可能。解决了数据收集和分析的难题,使“样本=全体”得以实现,而这也是大数据时代第一个特点,我们再进行相关研究的时候无需进行抽样,对全量的研究是我们的结果更加全面。

二、更杂:不是精确性,而是混杂性

在以往的小数据时代,因为样本容量的有限性,为了保证最终结果的可信性,分析人员务必需要保证所选择样本数据的准确度。因为基于小样本的数据分析,如果其中不幸参杂了一个错误的数据,那很有可能导致最终的结果完全偏离现实。

而到了大数据时代,我们所收集到的数据越来越多,而其中必然会惨杂着为数不少的错误数据。但是在如此庞杂的数据库中。只有5%的数据是结构化且能用于传统数据库的,这也就意味着,如果我们还是如以往一般执迷于精确性,那么剩下95%的的非结构化数据都无法被利用,这将是一个多大的损失,我们坐拥宝山而不自知,白白让这么丰富的数据浪费。而如果要使用这些数据,我们就必须接受不精确性,接受数据的混杂,这样才能打开一扇从未涉足的世界的窗户。

当然,我们不再追求精确性,并不是意味着我们放弃准确。恰恰相反,接受数据的混杂,正是为了能够通过对更多数据的使用,来获取更有说服力、更加准确的结果。虽说混杂的数据中会参杂错误数据,但在庞大的全样本下,个别错误的数据对最终结果的影响也将被无限地缩小。

三、更好:不是因果关系,而是相关关系

今日头条根据用户以往的阅读数据来判定其感兴趣的内容,并进行针对性的推荐,但从不去纠结用户为什么喜欢这些内容;支付宝年度账单会根据各个省市的消费情况制作相关的排行榜,但也并不深究是什么导致了各个省市消费情况的差异......

诸如此类,绝大部分的互联网公司都是通过数据的分析,向我们传递着“是什么”的信息,而非“为什么”。而这也正是大数据时代所带来的第三个思维的变革:我们更多的开始关注相关关系,而不是因果关系。我们不必非得知道现象背后的原因是什么,我们更多的是让数据自己“发声"。

当然,这并不意味着因果关系已经没有作用。在大多数情况下。一旦我们完成了对大数据的相关关系分析,往往不会仅仅满足于知道"是什么”,我们会继续像更深层次进行探索,去研究因果关系,找出背后的“为什么”。

我们只是不会再把因果关系作为意义来源的基础。在大数据时代,即使很多情况下,我们依然指望用因果关系来说明我们所发现的相互联系,但是,因果关系实际上只是一种特殊的相关关系。相反,大数据推动了相关关系分析,相关关系往往能取代因果关系起作用,即使不可取代的情况下,它也能指导因果关系起作用。

大数据时代的来临,是我们测量、记录、分析世界的一个契机,他能帮助我们更好的认识社会,认识我们所生存的这个世界。而如果我们有意去抓住这个机遇,就务必需要从思维上去改变,去适应大数据时代的生存法则。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容