什么是大数据

先来介绍大数据的4个V,数据量大,实时性,类型多样,数据价值大

图1

以淘宝为例,用户量很大,商品很多,反应了数据量大,

实时更新反应在我们人多,下单却没有影响,实时下单

数据类型多样,如商家图片还有各种数值字符串等信息

数据价值大,有用户信息,商户信息,

图2

数据流向,以饮料厂水龙头为例,数据就像水流不断生成,我们需要数据收集层不断收集,存储成日志,当我们的信息收集好后,需要专门存储起来,这里是数据存储层

图3

数据存储不是光用来放着玩的,而是最终用来机器学习分析处理统计,将其变成实际价值来使用,这就涉及到数据计算层

图4

同时由于有多个节点,为了调度资源,需要资源管理和服务协调层,就好比公司的人力资源,分配行政和技术等等部门的安排。最终数据可以可视化,可以机器学习指定下一步的策略

图5

大数据的基本框架如上,每一层有之前说的,也有没说过的,数据收集层,ETL分别对应提取转换,加载,计算引擎层,交互式分析后面讲,其实这层的重点是批处理和流处理,批处理可以理解拿一堆数据一批处理,流处理可以理解流过水龙头的阀对水流处理。数据仓库可以联系数据库,数据库的数据是最原始的信息,可以理解为商店买到菜,数据仓库可以理解为我们买回家将其切好做了一些处理,但是还不能直接吃,后面可能讲的数据集市是数据最终整理可用于计算处理,跑模型。数据可视化没什么说了,一些统计信息,最后将其输出给用户

图6

大数据为什么要分那么多层级,1数据量大,每个层必须专门处理,好比公司小的时候人力和财务可以分开,大到一定程度就必须分离,2分布式,大数据是多个服务器并行处理3实时性强,要结果像水一样流出不能停滞

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容