先来介绍大数据的4个V,数据量大,实时性,类型多样,数据价值大
图1
以淘宝为例,用户量很大,商品很多,反应了数据量大,
实时更新反应在我们人多,下单却没有影响,实时下单
数据类型多样,如商家图片还有各种数值字符串等信息
数据价值大,有用户信息,商户信息,
图2
数据流向,以饮料厂水龙头为例,数据就像水流不断生成,我们需要数据收集层不断收集,存储成日志,当我们的信息收集好后,需要专门存储起来,这里是数据存储层
图3
数据存储不是光用来放着玩的,而是最终用来机器学习分析处理统计,将其变成实际价值来使用,这就涉及到数据计算层
图4
同时由于有多个节点,为了调度资源,需要资源管理和服务协调层,就好比公司的人力资源,分配行政和技术等等部门的安排。最终数据可以可视化,可以机器学习指定下一步的策略
图5
大数据的基本框架如上,每一层有之前说的,也有没说过的,数据收集层,ETL分别对应提取转换,加载,计算引擎层,交互式分析后面讲,其实这层的重点是批处理和流处理,批处理可以理解拿一堆数据一批处理,流处理可以理解流过水龙头的阀对水流处理。数据仓库可以联系数据库,数据库的数据是最原始的信息,可以理解为商店买到菜,数据仓库可以理解为我们买回家将其切好做了一些处理,但是还不能直接吃,后面可能讲的数据集市是数据最终整理可用于计算处理,跑模型。数据可视化没什么说了,一些统计信息,最后将其输出给用户
图6
大数据为什么要分那么多层级,1数据量大,每个层必须专门处理,好比公司小的时候人力和财务可以分开,大到一定程度就必须分离,2分布式,大数据是多个服务器并行处理3实时性强,要结果像水一样流出不能停滞