1. HDFS:hadoop分布式文件管理系统,以流式数据访问模式来存储超大文件
2. HDFS数据块:HDFS上的文件被划分为块大小的多个分块,作为独立的存储单元,称为数据块,默认大小为64MB
3. HDFS三个节点:namenode,datanode,secondary namenode
namenode:hdfs的守护进程,用来管理文件系统的命名空间,负责记录文件是如何分割成数据块,以及这些数据块被存储到哪些节点上,它的功能是对内存和IO进行集中管理
datanode:文件系统的工作节点,根据需要存储和检索数据块,并且定期向namenode发送他们所存储的块的列表
secondary namenode:辅助后台程序,与namenode进行通信,以便定期保存HDFS元数据的快照
4. hadoop三大核心组件之HDFS和YARN
https://blog.csdn.net/Zonzereal/article/details/78095110
hadoop集群包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,物理上常在一起
HDFS集群:负责海量数据的存储,集群中的角色主要有namenode datanode secondarynamenode
YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有resourcemanage nodemanage
MapReduce:其实是一个应用程序开发包
5. 查看空间使用情况
hdfs dfsadmin -report
6.