应用场景

如上图,搜索引擎,分布式处理,baidu,360
系统推荐,淘宝购物推荐,浏览器广告
时事热点,微博热搜

金融领域,客户画像,比如对银行储户进行分类,
精准营销,针对用户行为,进行定向产品推荐
风险管控,对用户征信进行分类预测

我们以货物量增加来考虑,其他对应的流程可能都要增加投入

hadoop是一个生态圈,我们之前可能听说spark等等,这里把hadoop理解成一个工厂,工厂里有很多个并行的仓库,HDFS,仓库的存取由YARN负责协调,有MapReduce负责加工,对于后面新招来的Storm也负责加工,但是其从不休息

hadoop解决了如上图的几个问题

如上图,可以看到Hadoop的体系,

在hadoop体系没有storm而只有MapReduce时,M负责存取加工,但是工作量大时,实时性就会变差

Storm还没有出生时,员工自己开创了S工厂,Spark

spark是新创业工厂,有自己的工作间RDD,可以当仓库也可以里面加工,SparkStreaming在RDD中一直工作,,S厂还可以接一些高端业务如AI来做

上图是Spark框架体系,Core为核心,数据处理涉及到SparkSQL,SparkStreaming,MLib,GraphX
其中MLib是设计人工智能部分,
Spark厂加工速度时Hadoop厂速度10倍以上
有人会问,那我们是不是只学spark就行了,hadoop是不是不行的问题,事实上没有便宜的买卖,很多项目往往是hadoop和spark兼顾实现

spark和hadoop的结合以及特点如上,首先二者是可以共生合作的,spark擅长加工和高端服务,处理附在,机器学习,交互查询,hadoop采用持久仓库,spark采用可扩容工作间RDD,hadoop是硬盘上处理,而spark是内存上处理

spark在处理速度上占有优势,但是hadoop存储以扩展,存储安全稳定,所以常常是结合二者之长进行架构

最后老师给了一点鸡汤,课程是0基础的,不要怕,奥利给,理论和实践结合,你就能变强