1.hdfs是属于什么架构
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
2.hdfs部署后进程哪些?按启动顺序说
NN DN SNN
3.一个文件180M,请问实际存储多少,多少块?多少map task?(副本为3)
540M 6块 6mp 假如文件是压缩的,那么正好压缩不支持分割,那么就一个map task
4.副本放置策略,来说说看
HDFS默认数据放置策略
系统默认为每一个数据块存放3个副本,按照布署在NameNode上的默认机架感知策略存放数据块副本。其中:
第一个block副本放在client结点所在机架的datanode里(如果client不在集群范围内,则这第一个node是随机选取的,当然系统会尝试不选择哪些太满或者太忙的node)。
第二个block副本放置在与第一个datanode节点相同的机架中的另一个datanode中(随机选择)。
第三个block副本放置于另一个随机远端机架的一个随机datanode中。
如果还有更多的副本就随机放在集群的node里。
将第一、二个block副本放置在同一个机架中,当用户发起数据读取请求时可以较快地读取,从而保证数据具有较好的本地性。
第三个及更多的block副本放置于其他机架,当整个本地结点都失效时,HDFS将自动通过远端机架上的数据副本将数据副本的娄得恢复到标准数据。
Hadoop的副本放置策略在可靠性(block在不同的机架)和带宽(一个管道只需要穿越一个网络节点)中做了一个很好的平衡。下图是备份参数是3的情况下一个管道的三个datanode的分布情况。
5.snn职责是什么
SecondaryNameNode: 当HA时,SNN不存在了
存储: 命令空间镜像文件fsimage + 编辑日志editlog
作用: 定期合并 fsimage +editlog 为新的fsimage,推送给NN,称为检查点 checkpoint
参数: dfs.namenode.checkpoint.period 3600s
https://www.jianshu.com/p/5d292a9a8c86
6.hadoop fs命令和什么命令一样
hdfs dfs
7.shuffle,说说你们的理解
在map和repuced中间 进行重组 洗牌操作
8.yarn的进程哪些?
NodeManager,ResourceManager
9.jps命令,谈谈你们的理解
查看java进程及其对应信息
10.hdfs yarn界面的默认端口分别多少?假如让你们修改这个端口号,会不会?
hdfs 50070
yarn 8088
11.查看进程哪个占系统资源较多的命令是什么
top
12.查看系统负载,1分钟 5分钟 15分钟 的命令是什么
top右上角 load average: 0.09, 0.05, 0.01
三个数分别代表不同时间段的系统平均负载(一分钟、五 分钟、以及十五分钟)
13.说说你们对top,还能够看啥?
查看系统的CPU、内存、运行时间、交换分区、执行的线程等信息