Hadoop:分布式系统基础架构
主要解决海量数据的存储与分析计算
主要优势包括:
- 高可靠性:Hadoop底层维护多个数据副本,不会因为单个节点出现故障而导致数据丢失
- 高扩展性:Hadoop在集群间分配任务,可扩展数以千计的节点
- 高效性:Hadoop并行工作
- 高容错性:Hadoop可以将执行失败的任务自动重新分配
Hadoop 3.x版本主要包括以下几个模块:
- Common:辅助工具
- HDFS:分布式文件存储系统
- MapReduce:大数据计算引擎
- Yarn:负责资源的调度
HDFS的组成:
- NameNode:存储文件的元数据,例如文件名、文件属性、文件块列表以及每个块所在的DataNode
- DataNode:在本地文件系统存储文件块
- Secondary NameNode:每隔一段时间对NameNode进行备份
Yarn的组成:
- ResourceManager:负责整个集群的资源分配、调度
- NodeManager:单个节点的资源分配、调度
- ApplicationMaster:负责单个任务执行
- Container:Job容器,相当于一台独立的服务器,里面封装又任务所需的资源,如内存、CPU、磁盘等