登录注册写文章

HDFS架构及其工作原理

HDFS架构及其工作原理

HDFS架构

hdfs2.png

NameNode: 就是Master，它就是一个主管，管理者
（1）管理hdfs的名称空间
（2）配置副本策略
（3）管理数据块（Block）映射信息
（4）处理客户端的读写请求
DataNode
（1）存储实际的数据块
（2）执行数据块的读写操作
Client: 客户端
（1）文件切分。文件上传hdfs时，Client将文件切分成一个一个的Block，然后进行上传。
（2）与NameNode交互，获取文件的位置信息
（3）与DataNode交互，读取或者写入数据
（4）Client可以通过一些命令访问hdfs，比如对hdfs增删改查操作
SecondaryNameNode：并非NameNode的热备
（1）辅助NameNode，分担其工作量，比如定期合并simage和edits，并推送给NameNode
（2）在紧急情况下，可辅助恢复NameNode.
Block：数据块
hdfs中的文件在物理上是分块存储，块的大小可以通过参数配置：dfs.blocksize

写流程

hdfs3.png

（1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
（2）NameNode返回是否可以上传。
（3）客户端请求第一个 Block上传到哪几个DataNode服务器上。
（4）NameNode返回3个DataNode节点的列表（NameNode会选择与Client距离最近的DN1，然后再选择距离D1最近距离的其他2个DN接收数据），分别为dn1、dn2、dn3（三个数据副本）。
（5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。这个通道是串行通道，并行通道对client压力太大。
（6）dn1、dn2、dn3逐级应答客户端。
（7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
（8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步，第二次上传的DN可能等前一次完全不同，是完全独立的过程）。
（9）当所有block上传完成，NameNode会通知Client上传结束，并在NN中更新元数据

读流程

hdfs4.png

（1）客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。
（2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。如果第一个DN连接失败则会连接第二个，第二个失败，连接第三个，第三个失败就抛异常。
（3）DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。
（4）客户端以Packet为单位接收，先在本地缓存，然后写入目标文件

NameNode与SecondaryNameNode工作机制

hdfs5.png

首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。

这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦NameNode节点断电，就会产生数据丢失。因此，引入Edits文件(只进行追加操作，效率很高)。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。这样，一旦NameNode节点断电，可以通过FsImage和Edits的合并，合成元数据。

但是，如果长时间添加数据到Edits中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行FsImage和Edits的合并，如果这个操作由NameNode节点完成，又会效率过低。因此，引入一个新的节点SecondaryNamenode，专门用于FsImage和Edits的合并.

第一阶段：NameNode启动
（1）第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。
（2）客户端对元数据进行增删改的请求。
（3）NameNode记录操作日志，更新滚动日志。
（4）NameNode在内存中对元数据进行增删改。
第二阶段：Secondary NameNode工作
（1）Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。CheckPoint触发条件：定时时间到或者Edits中的数据满了
（2）Secondary NameNode请求执行CheckPoint。
（3）NameNode滚动正在写的Edits日志（新建一个Edits文件）。
（4）将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode。
（5）Secondary NameNode加载编辑日志和镜像文件到内存，并合并。
（6）生成新的镜像文件fsimage.chkpoint。
（7）拷贝fsimage.chkpoint到NameNode。
（8）NameNode将fsimage.chkpoint重新命名成fsimage。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Hadoop 原理学习——HDFS 架构与工作原理
一、目标 HDFS 全称hadoop分布式文件系统，其最主要的作用是作为 Hadoop 生态中各系统的存储服务。 ...
Alukar阅读 2,581评论 1赞 18
HDFS详解一：namenode、datanode工作原理
1. 概述 HDFS集群分为两大角色：NameNode、DataNode（Secondary NameNode）N...
如果仲有听日阅读 9,776评论 1赞 7
HDFS读写和冷备份原理
HDFS写文件流程当用户通过命令行或者JavaAPI向Hadoop集群发起写入文件操作时，将触发写文件流程，分为...
Leesper阅读 3,291评论 2赞 1
大数据面试 | 01 HDFS面试热点--HDFS 架构及读写流程
文章目录 HDFS 简介以及架构设计详解SecondaryNameNode HDFS小文件危害以及解决方案 HD...
彬彬有李学数据阅读 825评论 0赞 3
082-BigData-10HDFS上传与下载机制
上一篇：081-BigData-09HDFS上传与下载一、HDFS的数据流 1、HDFS写数据流程 1）客户端向...
AncientMing阅读 511评论 0赞 2

赞1赞

赞赏

手机看全文