1. hadoop几个点
HADOOP 免费
CDH 收费
HDP 收费
后2者合并成为CDP
2.结构图
HDFS 就是分布式存储,包含NameNode(nn)、DataNode(dn) 、Secondary NameNode(2nn)
NN:存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等
DN:在本地文件系统存储文件块数据,以及块数据的校验和。
2NN::每隔一段时间对NameNode元数据备份。
NN和2NN不能部署在同一台服务器上
YARN:是 Hadoop 的资源管理器。也就是调度器。
MapReduce 将计算过程分为两个阶段:Map 和 Reduce
1)Map 阶段并行处理输入数据
2)Reduce 阶段对 Map 结果进行汇总
三者的关系
整个HADOOP生态