大数据功能介绍

图1

如上图，搜索引擎，分布式处理，baidu,360

系统推荐，淘宝购物推荐，浏览器广告

时事热点，微博热搜

图2

金融领域，客户画像，比如对银行储户进行分类，

精准营销，针对用户行为，进行定向产品推荐

风险管控，对用户征信进行分类预测

图3

我们以货物量增加来考虑，其他对应的流程可能都要增加投入

图4

hadoop是一个生态圈，我们之前可能听说spark等等，这里把hadoop理解成一个工厂，工厂里有很多个并行的仓库，HDFS，仓库的存取由YARN负责协调，有MapReduce负责加工，对于后面新招来的Storm也负责加工，但是其从不休息

图5

hadoop解决了如上图的几个问题

图6

如上图，可以看到Hadoop的体系，

图7

在hadoop体系没有storm而只有MapReduce时，M负责存取加工，但是工作量大时，实时性就会变差

图8

Storm还没有出生时，员工自己开创了S工厂，Spark

图9

spark是新创业工厂，有自己的工作间RDD，可以当仓库也可以里面加工，SparkStreaming在RDD中一直工作，，S厂还可以接一些高端业务如AI来做

图10

上图是Spark框架体系，Core为核心，数据处理涉及到SparkSQL,SparkStreaming,MLib,GraphX

其中MLib是设计人工智能部分，

Spark厂加工速度时Hadoop厂速度10倍以上

有人会问，那我们是不是只学spark就行了，hadoop是不是不行的问题，事实上没有便宜的买卖，很多项目往往是hadoop和spark兼顾实现

图11

spark和hadoop的结合以及特点如上，首先二者是可以共生合作的，spark擅长加工和高端服务，处理附在，机器学习，交互查询，hadoop采用持久仓库，spark采用可扩容工作间RDD，hadoop是硬盘上处理，而spark是内存上处理

图12

spark在处理速度上占有优势，但是hadoop存储以扩展，存储安全稳定，所以常常是结合二者之长进行架构

图13

最后老师给了一点鸡汤，课程是0基础的，不要怕，奥利给，理论和实践结合，你就能变强

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。