在网上看到了一副很好描述hadoop数据存储的漫画,借来临摹一下,顺便自己加一点注释
先上一下丑作(不接受反驳)
简单解释一下,怕你们看不懂印象派的画作 = =
1. 客户端首先要和NameNode(以下简称NN)建立链接,告诉NN,我要存储一个280M的数据。此时默认这个NN是一个合格的NN,知道blocksize默认128M,replication factor为3。
2. 然后NN会去找DataNode(以下简称DN),如果符合要求,就会将DNs,按照距离客户端的距离近远排序,返回给客户端。
3. 客户端拿到DNs后,会将第一个block传输给DN1,传输的同时,DN1传给DN2,DN2给DN3。当数据传输结束的时候,DNs会给NN报备一下,并且告诉NN,自己存储的文件名,副本因子和block-id。
4. 客户端继续重复此流程,直到所有块传输完毕。
大数据小白,刚刚开始学习。欢迎提出疑问,帮我进步~