HDFS学习

1. HDFS:hadoop分布式文件管理系统,以流式数据访问模式来存储超大文件

2. HDFS数据块:HDFS上的文件被划分为块大小的多个分块,作为独立的存储单元,称为数据块,默认大小为64MB

3. HDFS三个节点:namenode,datanode,secondary namenode

    namenode:hdfs的守护进程,用来管理文件系统的命名空间,负责记录文件是如何分割成数据块,以及这些数据块被存储到哪些节点上,它的功能是对内存和IO进行集中管理

    datanode:文件系统的工作节点,根据需要存储和检索数据块,并且定期向namenode发送他们所存储的块的列表

    secondary namenode:辅助后台程序,与namenode进行通信,以便定期保存HDFS元数据的快照

4. hadoop三大核心组件之HDFS和YARN

    https://blog.csdn.net/Zonzereal/article/details/78095110

    hadoop集群包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,物理上常在一起

    HDFS集群:负责海量数据的存储,集群中的角色主要有namenode datanode secondarynamenode

    YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有resourcemanage nodemanage

    MapReduce:其实是一个应用程序开发包

5. 查看空间使用情况

    hdfs dfsadmin -report

6. 

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 32,046评论 2 89
  • 开始学习Hadoop了,其中很重要的一块就是它的存储系统-HDFS,先学学HDFS HDFS概述 HDFS源于Go...
    发光如星_275d阅读 2,331评论 0 0
  • Zookeeper用于集群主备切换。 YARN让集群具备更好的扩展性。 Spark没有存储能力。 Spark的Ma...
    Yobhel阅读 7,358评论 0 34
  • 这是我第一天用简书,第一次写随笔。 最近在看日剧《东京白日梦女》,三个已经30岁的“女孩子”,虽然在第一集就立下“...
    苏吴阅读 353评论 0 2
  • 清楚地记得自己有4篇日更没完成。有些是因为的确发生了意外,有些是当时脑子一篇空白,且不想记流水账应付了事,于是作罢...
    StarrySky_0ee7阅读 232评论 1 0