Big Data - 02. 更杂

不是精确性,而是混杂性

允许不精确

在不断涌现的新情况里,允许不精确的出现已经成为了一个新的亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。这样不就是大量数据优于少量数据那么简单了,而是大数据创造了更好的结果。

  • 在很多情况下,与致力于避免错误相比,对错误的包容会带给我们更多好处。
  • 数据不可能完全错误,但是为了了解大致的发展趋势,我们愿意对精确性做出一些让步。
  • 当我们试图扩大数据规模的时候,要学会拥抱混乱。

大数据的简单算法比小数据的复杂算法更有效

  • 1954年,IBM以计算机的250个词语和六条语法规则为基础,将60个俄语词组翻译成了英语,失败。
  • 20世纪80年代后期,IBM试图让计算机自己估算一个词或一个词组适用于用来翻译另一种语言中的一个词和词组的可能性,然后再决定某个词和词组在另一种语言中的对等词和词组。20世纪90年代,将加拿大会议资料翻译成英语和法语并出版,似乎很有效。然而,飞跃后,成效不大。

无所不包的谷歌翻译系统
  • 2006年,Google翻译开始利用全球的互联网。谷歌翻译系统会从各种各样语言的公司网站上寻找对译文档,还会去寻找联合国和欧盟发布的官方文件和报告的译本。它甚至会吸收速读项目中的书籍翻译。尽管输入源混乱,翻译质量最好,翻译内容更多。

谷歌之所以能比IBM多利用成千上万的数据,是因为它接受了有错误的数据


纷杂的数据越多越好

大数据时代要求我们重新审视精确性的优劣

  • 信息时代,我们所掌握的数据库越来越全面,我们不再需要担心某个数据点对整套分析的不利影响;
  • 我们要接受纷繁的数据,从中获益,而不是以高昂的代价消除所有的不确定性;
  • 当我们掌握了大量的新型数据时,精确性就不那么重要了 ,我们同样可以掌握事情的发展趋势;
  • 错误性不是大数据固有的,它是测量工具的缺陷。

麻省理工与通货紧缩预测软件
  • 联邦政府采集数据花费两亿五千万美元,数据精确有序,但是存在滞后。
  • MIT的贝托·卡瓦略(Alberto Cavell)和罗伯托·里哥本(Oberto Rigobon)提出大数据方案,那就是接受更混杂的数据。
  • 通过软件在互联网上收集信息,尽管数据很混乱,但和好的分析法结合,他们比那些依赖官方数据的人早2个月知道通货紧缩趋势。

混杂性,不是竭力避免,而是标准途径

在“小数据”范围内,分类法和索引法可以帮助我们存储和检索数据资源,一旦把数据规模增加好几个数量级,这些预设一切都各就各位的系统就会崩溃。

  • 清楚的分类机制被更混乱却更灵活的机制所取代了;
  • 任何人都可以输入新的标签,标签内容事实上就成为了网络资源的分类标准;
  • 我们添加标签时所固带的不准确性从某种意义上说明我们能够接受世界的纷繁复杂。

互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。

  • Facebook的“like”,数量不多时,会显示精确数字,当数量很大时,则只会显示近似值。这并不代表系统不知道正确的数据是多少,只是当数量规模变大的时候,确切的数量已经不那么重要了。

要想获得大规模数据带来的好处,混乱应该是一种标准途径。而不应该是竭力避免的。

  • 传统的数据库引擎要求数据高度精确和准确排列。索引是事先就设定好了的,这也限制了人们的搜索。增加一个新的索引往往既消耗时间,又惹人讨论,因为需要改变底层的设计。
  • 我们现在拥有各种各样、参差不齐的海量数据。很少数据完全符合预先设定的数据种类。而且,我们想要数据回答问题时,也只有在我们收集和处理数据的过程中才会知道。

新的数据库设计的诞生

非关系型数据库的出现,它不需要预先设定记录结构,允许处理超大量五花八门的数据。因为包容了结构多样性,这些数据库设计就要求更多的处理和存储资源。

  • 帕特·赫兰德认为处理海量的数据会不可避免地导致部分信息的缺失。虽然这本来就是有“损耗性”的,但是能快速得到想要的结果弥补了这个缺陷。

  • 大的数据库并不是固定在某个地方的,它一般分散在多个硬盘和多台电脑上。一个记录可能会分开存储在两三个地方。当一个地方的记录更新了,其他地方的记录只有同步更新才不会产生错误。当数据变得很多时,同步更新就比较不现实了。因此,多样性是一种解决的方法。


Hadoop与VISA的 13分钟
  • 典型的数据分析需要经过“萃取、转移和下载”这样一个操作流程,但是Hadoop就不拘泥于这样的方式。相反,它假定了数据量的巨大使得数据完全无法移动,所以人们必须在本地进行数据分析。
  • 信用卡公司VISA使用Hadoop,能够将处理730亿单交易所需的时间,从一个月缩短至仅 13分钟。

“宽容错误会给我们带来更多价值”
接受混乱,我们就能享受极其有用的服务,这些服务如果使用传统方法和工具是不可能做到的,因为那些方法和工具处理不了这么大规模的数据。

社会将两个折中的想法不知不觉地渗入了我们的处事方法中

  • 第一个折中是,我们默认自己不能使用更多的数据,所以我们就不会去使用更多的数据。但是,数据量的限制正在逐渐消失,而且通过无限接近“样本=总体”的方式来处理数据,我们会获得极大的好处。

  • 第二个折中出现在数据的质量上。对于大部分事情,快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多。

相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实的真相。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,458评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,030评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,879评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,278评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,296评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,019评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,633评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,541评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,068评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,181评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,318评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,991评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,670评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,183评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,302评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,655评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,327评论 2 358

推荐阅读更多精彩内容

  • ORA-00001: 违反唯一约束条件 (.) 错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。 O...
    我想起个好名字阅读 5,328评论 0 9
  • 经历相识,相知,相许,两个人从陌生人升级为爱人,可喜可贺。于是,会在那么个吉利的日子举行神圣的仪式。可是,作为...
    咚楠曦呗阅读 224评论 0 0
  • 今天一母亲聊自己与孩子大吵一架,最后让孩子自己离开。说自家的孩子全无感恩心,想要什么就要给什么,给晚了她还要被嫌弃...
    W仓羽阅读 236评论 0 0
  • 前些天去看望父母亲,母亲突然对我说,拿点钱去用吧!换作以前我一定会拒绝,但就在母亲说出那句话的时候,我感到一阵温暖...
    馨幽草阅读 206评论 0 0
  • 昨天的心情是糟糕的,今天的心情是开心而平和的! 昨天因为工作和孩子的事情而让我内心纠结、犹豫……心中复杂的情绪令我...
    蓝枫zdd阅读 124评论 0 0