# Hadoop 优势 #
- 高可靠性:因为Hadoop假设计算的元素和存储会出现故障,因为他维护多个工作数据副本,在出现故障时可以对失败得节点重新分布处理;
- 搞扩展性:在集群间分配任务数据,可方便得扩展数以千计得节点;
- 高效性:在MapReduce得思想先,Hadoop时并行工作得,以加快任务处理速度;
- 高容错性:自动保存多份副本数据,并且能够自动将失败得任务重新分配。
## Hadoop 组成 ##
概述:
- Hadoop HDFS:一个高可靠,高吞吐量得分布式文件系统
- Hadoop MapReduce :一个分布式得离线并行计算框架
- Hadoop YARN :作业调度与集群资源管理框架
- Hadoop Commom: 支持其他模块得工具模板
1. HDFS架构概述
1)NameNode(nn):存储文件得云数据,如文件名,文件目录结构,文件属性(生成时间,副本书,文件权限),以及每个文件得块列表和快所在DataNode等
2)DataNode(dn):在本地文件系统存储文件块数据,以及快数据得校验和
3)SecondaryName(2nn):用于监控HDFS状态得辅助后台程序,没隔一段时间获取HDFS元数据得快照
2. YARN架构概述
1)ResourceManager(rm):处理客服端请求,启动/监控ApplicationMaster,监控NodeMAnager,资源分配与调度
2) NodeManager(nm):单个节点得资源管理,处理老子ResourceManager得命令,处理来自ApplicationMaster得命令;
3)ApplicationMaster:数据切分,为应用程序申请资源,并分配给内部任务,任务监控与容错
4)Container:对任务运行环境得抽象,封装CPU,内存等多维资源以及环境变量,启动命令等任务运行相关得信息
3. MapReduce架构概述
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总
4. 大数据技术生态系统