##(上) 大数据发展历史以及大数据和BI的根本区别(上)

//
深度解析，一文诠释大数据发展历史以及大数据和BI的根本区别(上) - 惊帆的BLOG
http://www.bucry.com/archives/1895.html
正是因为5V的产生，彻底打乱了BI的节奏，为了向业务靠拢，BI领域做出了大量的努力，例如创建不同类型的CUBE进行预处理减小Volume带来的问题，扩展数据库可直接存储json，binary来抵抗Variety。然而这并没有彻底解决问题。因为对于数据分析来讲，基本上只有查询和统计，不会涉及更新，而关系型数据库天生是用来保证一致性，例如花费了大量的性能和时间来做事物，设定强类型，保证数据不出现脏读，幻读等各种问题。

而这一切的，在数据分析领域，根本不需要！！

在谈论大数据是时候，甚至在一个数据项目上线的时候，多数人的第一反应是：这不就是BI嘛，数据挖掘不就是出报表嘛，各种柱状，饼图展示数据内容，这和用关系型数据库搞有啥区别嘛。

单从外部展现来看，我们很难界定BI报表和大数据处理的区别，但是对于从业者来说，不能忽视看似相同外观后完全不一样的思想。

首先，需要明确一点，在大多数情况下，数据本身的作用只是用来汇报事实，例如：季度指标，年终KPI达成率，月度销售报表等等信息。

多年来，对数据的存储主要在：

关系型数据库
日志
文件
对数据的需求主要在：

统计
查询
产生报表
面对这种规整的数据，迫切的需要一种工具，将其展现出来，用数据说话，这种工具就是BI，百科这样说：

BI（Business Intelligence）即商务智能，它是一套完整的解决方案，用来将企业中现有的数据进行有效的整合，快速准确地提供报表并提出决策依据，帮助企业做出明智的业务经营决策。

所以建立在关系型数据库上面的可视化工具迅速的发展，因为关系型数据库提供了很好的schema，可以明确的判断数据的类型，为可视化提供友好的支撑。

然而，随着时间的推移，存储成本的降低，用户渗透率和网络依赖度的提高，数据逐渐朝着如下几个方向扩展：

Volume(体量)：存储可从数百TB到数十数百PB、甚至EB的规模。
Variety(多样性)：数据包括各种格式和形态的数据。
Velocity(时效性)：很多数据需要在一定的时间限度下得到及时处理。
Veracity(准确性)：处理的结果要保证一定的准确性。
Value(价值)：大数据包含很多深度的价值，大数据分析挖掘和利用将带来巨大的商业价值。
当数据量快速上升的时候，我们对系统的要求并没有下降，比如在数据在一个GB时候，一个查询1秒钟就可以出结果，数据在一个PB的时候，我们依旧希望1秒钟就出结果，而不希望点击查询，睡一觉再来看结果。

另外，随着网络逐渐的丰富，多样性逐渐展开，例如对于纯文字的BLOG，我们已经不再敏感，而视频，音频这样的资源在网络广泛传播，那么如何分析此类数据，成为了一种需求。

单单的存储和展现文字和统计报表，在日益竞争的网络红海中，已经不足以给决策者提供有力的信息。相反，如何得到存储的内容所表达的含义，也就是理解数据，成了大家广泛追求的目标，例如：统计商品访问率和评论数目已经不再那么重要，而知道评论的内容的情感变的日益重要。

所以迫切的需要找到一种方法，可以保证在数据增大的同时，处理能力并不会降低，并且可以同时处理多种类型的文件，还能读懂数据，就变得尤为重要。而这一切，是普通关系型数据库所不能实现的，例如：

我们在判断一本书卖的好不好的时候，可以根据已经售卖的书籍，然后进行统计，可以得出某个作者，某个颜色的数据最畅销。

然而这样的信息完全吗？不完全，因为决定一本书畅销程度除了书籍的作者，书本的颜色外，用户看到这本书籍的面部表情，摘要的长短和表达的含义都很重要。很多用户在看了摘要后，直接决定是否要买下此书，所以以下内容，并不能由统计直接得出：

是不是摘要写的很性感的书籍最畅销？
是不是天气没有出太阳的时候数据最畅销？
是不是书籍内容字间宽度等距更畅销？
以上内容并不能简单的通过统计计算而出，当然，我们可以把上面的内容直接存储在关系型数据库中，然而，并没有什么作用，因为维度总是不可穷举的。

正是因为5V的产生，彻底打乱了BI的节奏，为了向业务靠拢，BI领域做出了大量的努力，例如创建不同类型的CUBE进行预处理减小Volume带来的问题，扩展数据库可直接存储json，binary来抵抗Variety。然而这并没有彻底解决问题。因为对于数据分析来讲，基本上只有查询和统计，不会涉及更新，而关系型数据库天生是用来保证一致性，例如花费了大量的性能和时间来做事物，设定强类型，保证数据不出现脏读，幻读等各种问题。

而这一切的，在数据分析领域，根本不需要！！

于是在这个时间段，终于可以停下来想一想，数据库真的那么合适吗？有没有另外一种方法可以解决这个问题？完全避开这个问题？很幸运，一个小的规律被人们发现了：

随着科技的发展，磁盘磁头移动的速度并没有显著的提高。

例如：

20年前，磁盘最大存储空间只有100MB，读完整个盘只需要2分钟。

20年后，PB的磁盘已经烂大街，被广泛使用，然而读取磁盘的速度却并没有提高，读取完1TB的数据，需要几个小时。

可见，磁盘读取速度并没有和磁盘容量成等比的增长。然而另一个情况又被人发现：

网络是廉价的，GB 专线已经很普及了，通过网络一秒读取一个GB的数据已经不是问题了。于是，一个大胆的想法产生了：

既然从一个盘读取1TB数据需要1小时，那么把数据放到1024台机器上，每个机器存储1GB，是不是1秒钟就读取完毕了？

很好，为了实现这个场景，我们首先需要设计出一个系统来分布式的存储这些文件，于是一个新的文件系统产生了：GFS。

有了存储还不够，需要一个系统快速的分布式的处理这批数据，需要再设计一个系统，于是又一个系统产生：MapReduce。

可以安全存储，处理外，还需要保证实时检索出数据，不得不再设计出另一个系统：BigTable。

组件齐全，三套组件其下，终于圆满的解决了Volume这个问题。而由于这三个系统的产生，快速处理PB数据终于不再是问题，而数据分析和挖掘领域，进入了一个新的领域，数据真正的价值，也在这一个时间段得到了很大的体现。

最后编辑于：2017.12.05 14:42:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

##(上) 大数据发展历史以及大数据和BI的根本区别(上)

推荐阅读更多精彩内容