一:理解
狭义的就是指框架本身,有3部分组成:HDFS(分布式文件系统,存储;MapReduce 分布式离线计算框架,计算;Yarn 资源调度框架,资源协调)
特点:分布式存储数据,通过物理分隔数据,将数据分散的存入不同的机器上;低成本;抽象处理逻辑,将数据处理逻辑简化为Map和Reduce操作。
广义的是指一个生态圈、生态系统。包含Hadoop框架之后的很多数据技术栈。
不足:计算模型只支持离线计算;性能有限;计算模型的设计存在局限。
二:为什么说Hadoop处于大数据领域的王者地位,已经成为大数据的代名词?
Hadoop是大数据领域第一个真正意义上的框架;大数据技术解决海量数据存储海量数据计算,Hadoop中有HDFS完成存储,MapReduce完成计算,从计算的角度说虽然后面出现了其他的计算引擎,但是都参考了MapReduce,存储一直都有使用HDFS,HDFS的地位始终无法撼动;Hadoop是一个大圈子,囊括性很强。
三 系统工作
数据来源层--->数据传输层-->数据存储层-->资源管理层-->数据计算层-->任务调度层-->数据可视化。
数据来源层:结构化数据,半结构化数据,非结构化数据。
数据传输层:Flume日志采集,Sqoop数据迁移
数据存储层:Kafka消息队列,HDFS,HBase海量列式非关系型数据库。
资源管理层:Yarn资源管理
数据计算层:MapReduce,SparkCore,Tez,Flink