hadoop

一:理解

狭义的就是指框架本身,有3部分组成:HDFS(分布式文件系统,存储;MapReduce 分布式离线计算框架,计算;Yarn 资源调度框架,资源协调)

特点:分布式存储数据,通过物理分隔数据,将数据分散的存入不同的机器上;低成本;抽象处理逻辑,将数据处理逻辑简化为Map和Reduce操作。

广义的是指一个生态圈、生态系统。包含Hadoop框架之后的很多数据技术栈。

不足:计算模型只支持离线计算;性能有限;计算模型的设计存在局限。

二:为什么说Hadoop处于大数据领域的王者地位,已经成为大数据的代名词?

Hadoop是大数据领域第一个真正意义上的框架;大数据技术解决海量数据存储海量数据计算,Hadoop中有HDFS完成存储,MapReduce完成计算,从计算的角度说虽然后面出现了其他的计算引擎,但是都参考了MapReduce,存储一直都有使用HDFS,HDFS的地位始终无法撼动;Hadoop是一个大圈子,囊括性很强。

三 系统工作

数据来源层--->数据传输层-->数据存储层-->资源管理层-->数据计算层-->任务调度层-->数据可视化。

数据来源层:结构化数据,半结构化数据,非结构化数据。

数据传输层:Flume日志采集,Sqoop数据迁移

数据存储层:Kafka消息队列,HDFS,HBase海量列式非关系型数据库。

资源管理层:Yarn资源管理

数据计算层:MapReduce,SparkCore,Tez,Flink

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容