大数据功能介绍

应用场景

图1

如上图,搜索引擎,分布式处理,baidu,360

系统推荐,淘宝购物推荐,浏览器广告

时事热点,微博热搜

图2

金融领域,客户画像,比如对银行储户进行分类,

精准营销,针对用户行为,进行定向产品推荐

风险管控,对用户征信进行分类预测

图3

我们以货物量增加来考虑,其他对应的流程可能都要增加投入


图4

hadoop是一个生态圈,我们之前可能听说spark等等,这里把hadoop理解成一个工厂,工厂里有很多个并行的仓库,HDFS,仓库的存取由YARN负责协调,有MapReduce负责加工,对于后面新招来的Storm也负责加工,但是其从不休息

图5

hadoop解决了如上图的几个问题

图6

如上图,可以看到Hadoop的体系,

图7

在hadoop体系没有storm而只有MapReduce时,M负责存取加工,但是工作量大时,实时性就会变差

图8

Storm还没有出生时,员工自己开创了S工厂,Spark

图9

spark是新创业工厂,有自己的工作间RDD,可以当仓库也可以里面加工,SparkStreaming在RDD中一直工作,,S厂还可以接一些高端业务如AI来做

图10

上图是Spark框架体系,Core为核心,数据处理涉及到SparkSQL,SparkStreaming,MLib,GraphX

其中MLib是设计人工智能部分,

Spark厂加工速度时Hadoop厂速度10倍以上

有人会问,那我们是不是只学spark就行了,hadoop是不是不行的问题,事实上没有便宜的买卖,很多项目往往是hadoop和spark兼顾实现

图11

spark和hadoop的结合以及特点如上,首先二者是可以共生合作的,spark擅长加工和高端服务,处理附在,机器学习,交互查询,hadoop采用持久仓库,spark采用可扩容工作间RDD,hadoop是硬盘上处理,而spark是内存上处理

图12

spark在处理速度上占有优势,但是hadoop存储以扩展,存储安全稳定,所以常常是结合二者之长进行架构


图13

最后老师给了一点鸡汤,课程是0基础的,不要怕,奥利给,理论和实践结合,你就能变强

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容