大数据生态圈之HDFS的基本原理

HDFS集群分为两大角色：NameNode、DataNode (Secondary Namenode)
其中，NameNode负责管理整个文件系统的元数据，DataNode 负责管理用户的文件数据块，本文就分别介绍这2个角色的工作原理。

文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上,每一个文件块可以有多个副本，并存放在不同的datanode上.Datanode会定期向Namenode汇报自身所保存的文件block信息(心跳机制)，而namenode则会负责保持文件的副本数量。
HDFS的内部工作机制对客户端保持透明，客户端请求访问HDFS都是通过向namenode申请来进行，也就是说客户端不能直接对datanode进行操作。

HDFS写数据流程

hdfs传文件.png

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

2赞3赞

赞赏

手机看全文

大数据生态圈之HDFS的基本原理

HDFS写数据流程

相关阅读更多精彩内容

友情链接更多精彩内容