##(上) 大数据发展历史以及大数据和BI的根本区别(上)

//
深度解析,一文诠释大数据发展历史以及大数据和BI的根本区别(上) - 惊帆的BLOG
http://www.bucry.com/archives/1895.html
正是因为5V的产生,彻底打乱了BI的节奏,为了向业务靠拢,BI领域做出了大量的努力,例如创建不同类型的CUBE进行预处理减小Volume带来的问题,扩展数据库可直接存储json,binary来抵抗Variety。然而这并没有彻底解决问题。因为对于数据分析来讲,基本上只有查询和统计,不会涉及更新,而关系型数据库天生是用来保证一致性,例如花费了大量的性能和时间来做事物,设定强类型,保证数据不出现脏读,幻读等各种问题。

而这一切的,在数据分析领域,根本不需要!!


在谈论大数据是时候,甚至在一个数据项目上线的时候,多数人的第一反应是:这不就是BI嘛,数据挖掘不就是出报表嘛,各种柱状,饼图展示数据内容,这和用关系型数据库搞有啥区别嘛。

单从外部展现来看,我们很难界定BI报表和大数据处理的区别,但是对于从业者来说,不能忽视看似相同外观后完全不一样的思想。

首先,需要明确一点,在大多数情况下,数据本身的作用只是用来汇报事实,例如:季度指标,年终KPI达成率,月度销售报表等等信息。

多年来,对数据的存储主要在:

关系型数据库
日志
文件
对数据的需求主要在:

统计
查询
产生报表
面对这种规整的数据,迫切的需要一种工具,将其展现出来,用数据说话,这种工具就是BI,百科这样说:

BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。

所以建立在关系型数据库上面的可视化工具迅速的发展,因为关系型数据库提供了很好的schema,可以明确的判断数据的类型,为可视化提供友好的支撑。

然而,随着时间的推移,存储成本的降低,用户渗透率和网络依赖度的提高,数据逐渐朝着如下几个方向扩展:

Volume(体量):存储可从数百TB到数十数百PB、甚至EB的规模。
Variety(多样性):数据包括各种格式和形态的数据。
Velocity(时效性):很多数据需要在一定的时间限度下得到及时处理。
Veracity(准确性):处理的结果要保证一定的准确性。
Value(价值):大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值。
当数据量快速上升的时候,我们对系统的要求并没有下降,比如在数据在一个GB时候,一个查询1秒钟就可以出结果,数据在一个PB的时候,我们依旧希望1秒钟就出结果,而不希望点击查询,睡一觉再来看结果。

另外,随着网络逐渐的丰富,多样性逐渐展开,例如对于纯文字的BLOG,我们已经不再敏感,而视频,音频这样的资源在网络广泛传播,那么如何分析此类数据,成为了一种需求。

单单的存储和展现文字和统计报表,在日益竞争的网络红海中,已经不足以给决策者提供有力的信息。相反,如何得到存储的内容所表达的含义,也就是理解数据,成了大家广泛追求的目标,例如:统计商品访问率和评论数目已经不再那么重要,而知道评论的内容的情感变的日益重要。

所以迫切的需要找到一种方法,可以保证在数据增大的同时,处理能力并不会降低,并且可以同时处理多种类型的文件,还能读懂数据,就变得尤为重要。而这一切,是普通关系型数据库所不能实现的,例如:

我们在判断一本书卖的好不好的时候,可以根据已经售卖的书籍,然后进行统计,可以得出某个作者,某个颜色的数据最畅销。

然而这样的信息完全吗?不完全,因为决定一本书畅销程度除了书籍的作者,书本的颜色外,用户看到这本书籍的面部表情,摘要的长短和表达的含义都很重要。很多用户在看了摘要后,直接决定是否要买下此书,所以以下内容,并不能由统计直接得出:

是不是摘要写的很性感的书籍最畅销?
是不是天气没有出太阳的时候数据最畅销?
是不是书籍内容字间宽度等距更畅销?
以上内容并不能简单的通过统计计算而出,当然,我们可以把上面的内容直接存储在关系型数据库中,然而,并没有什么作用,因为维度总是不可穷举的。

正是因为5V的产生,彻底打乱了BI的节奏,为了向业务靠拢,BI领域做出了大量的努力,例如创建不同类型的CUBE进行预处理减小Volume带来的问题,扩展数据库可直接存储json,binary来抵抗Variety。然而这并没有彻底解决问题。因为对于数据分析来讲,基本上只有查询和统计,不会涉及更新,而关系型数据库天生是用来保证一致性,例如花费了大量的性能和时间来做事物,设定强类型,保证数据不出现脏读,幻读等各种问题。

而这一切的,在数据分析领域,根本不需要!!

于是在这个时间段,终于可以停下来想一想,数据库真的那么合适吗?有没有另外一种方法可以解决这个问题?完全避开这个问题?很幸运,一个小的规律被人们发现了:

随着科技的发展,磁盘磁头移动的速度并没有显著的提高。

例如:

20年前,磁盘最大存储空间只有100MB,读完整个盘只需要2分钟。

20年后,PB的磁盘已经烂大街,被广泛使用,然而读取磁盘的速度却并没有提高,读取完1TB的数据,需要几个小时。

可见,磁盘读取速度并没有和磁盘容量成等比的增长。然而另一个情况又被人发现:

网络是廉价的,GB 专线已经很普及了,通过网络一秒读取一个GB的数据已经不是问题了。于是,一个大胆的想法产生了:

既然从一个盘读取1TB数据需要1小时,那么把数据放到1024台机器上,每个机器存储1GB,是不是1秒钟就读取完毕了?

很好,为了实现这个场景,我们首先需要设计出一个系统来分布式的存储这些文件,于是一个新的文件系统产生了:GFS。

有了存储还不够,需要一个系统快速的分布式的处理这批数据,需要再设计一个系统,于是又一个系统产生:MapReduce。

可以安全存储,处理外,还需要保证实时检索出数据,不得不再设计出另一个系统:BigTable。

组件齐全,三套组件其下,终于圆满的解决了Volume这个问题。而由于这三个系统的产生,快速处理PB数据终于不再是问题,而数据分析和挖掘领域,进入了一个新的领域,数据真正的价值,也在这一个时间段得到了很大的体现。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容