6月01日第二十三次早课

1.hdfs是属于什么架构

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

2.hdfs部署后进程哪些?按启动顺序说

NN DN SNN

3.一个文件180M，请问实际存储多少，多少块?多少map task?（副本为3）

540M 6块 6mp 假如文件是压缩的，那么正好压缩不支持分割，那么就一个map task

4.副本放置策略，来说说看

HDFS默认数据放置策略

系统默认为每一个数据块存放3个副本，按照布署在NameNode上的默认机架感知策略存放数据块副本。其中：

第一个block副本放在client结点所在机架的datanode里（如果client不在集群范围内，则这第一个node是随机选取的，当然系统会尝试不选择哪些太满或者太忙的node）。

第二个block副本放置在与第一个datanode节点相同的机架中的另一个datanode中（随机选择）。

第三个block副本放置于另一个随机远端机架的一个随机datanode中。

如果还有更多的副本就随机放在集群的node里。

将第一、二个block副本放置在同一个机架中，当用户发起数据读取请求时可以较快地读取，从而保证数据具有较好的本地性。

第三个及更多的block副本放置于其他机架，当整个本地结点都失效时，HDFS将自动通过远端机架上的数据副本将数据副本的娄得恢复到标准数据。

Hadoop的副本放置策略在可靠性（block在不同的机架）和带宽（一个管道只需要穿越一个网络节点）中做了一个很好的平衡。下图是备份参数是3的情况下一个管道的三个datanode的分布情况。

5.snn职责是什么

SecondaryNameNode: 当HA时，SNN不存在了

存储: 命令空间镜像文件fsimage + 编辑日志editlog

作用: 定期合并 fsimage +editlog 为新的fsimage,推送给NN，称为检查点 checkpoint

参数: dfs.namenode.checkpoint.period 3600s

https://www.jianshu.com/p/5d292a9a8c86

6.hadoop fs命令和什么命令一样

hdfs dfs

7.shuffle，说说你们的理解

在map和repuced中间进行重组洗牌操作

8.yarn的进程哪些?

NodeManager,ResourceManager

9.jps命令，谈谈你们的理解

查看java进程及其对应信息

10.hdfs yarn界面的默认端口分别多少?假如让你们修改这个端口号，会不会?

hdfs 50070

yarn 8088

11.查看进程哪个占系统资源较多的命令是什么

top

12.查看系统负载，1分钟 5分钟 15分钟的命令是什么

top右上角 load average: 0.09, 0.05, 0.01

三个数分别代表不同时间段的系统平均负载(一分钟、五分钟、以及十五分钟)

13.说说你们对top，还能够看啥?

查看系统的CPU、内存、运行时间、交换分区、执行的线程等信息

6月01日第二十三次早课

6月01日第二十三次早课

1.hdfs是属于什么架构

2.hdfs部署后进程哪些?按启动顺序说

3.一个文件180M，请问实际存储多少，多少块?多少map task?（副本为3）

4.副本放置策略，来说说看

5.snn职责是什么

6.hadoop fs命令和什么命令一样

7.shuffle，说说你们的理解

8.yarn的进程哪些?

9.jps命令，谈谈你们的理解

10.hdfs yarn界面的默认端口分别多少?假如让你们修改这个端口号，会不会?

11.查看进程哪个占系统资源较多的命令是什么

12.查看系统负载，1分钟 5分钟 15分钟的命令是什么

13.说说你们对top，还能够看啥?

相关阅读更多精彩内容

友情链接更多精彩内容

6月01日第二十三次早课

1.hdfs是属于什么架构

2.hdfs部署后进程哪些?按启动顺序说

3.一个文件180M，请问实际存储多少，多少块?多少map task?（副本为3）

4.副本放置策略，来说说看

5.snn职责是什么

6.hadoop fs命令和什么命令一样

7.shuffle，说说你们的理解

8.yarn的进程哪些?

9.jps命令，谈谈你们的理解

10.hdfs yarn界面的默认端口分别多少?假如让你们修改这个端口号，会不会?

11.查看进程哪个占系统资源较多的命令是什么

12.查看系统负载，1分钟 5分钟 15分钟 的命令是什么

13.说说你们对top，还能够看啥?

相关阅读更多精彩内容

友情链接更多精彩内容

12.查看系统负载，1分钟 5分钟 15分钟的命令是什么