1.每存一个文件,需要消耗150字节,不管你是1kb,还是128m,
2.分布式文件系统HDFS的组成架构
namenode——4个功能
1-管理hdfs的名称空间
2-配置副本策略
3-管理数据块映射信息
4-处理客户端的读写请求
datanode——2个功能
1-实际存储数据的。
2-执行读写操作。
client——5个功能
1-文件切分,
2-与namenode交互,获取文件的位置信息
3-与DataNode交互,读取或写入文件
4-提供命令来管理hdfs,——格式化hdfs
5-提供命令访问hdfs,——对文件进行增删改查。
secondary namenode——2个功能
1-辅助namenode,定期合并Fsimage(镜像文件)和Edits(编辑日志)
2-辅助回复,namenode
3.为何设置块大小在128m?
寻址时间为传输时间的1%为最佳状态,hdfs的寻址时间一般为10ms,故传输时间为1s.当前磁盘普遍传输速率是100m/s左右。故切分的块大小设置在128m
4.为什么块的大小不能设置的太大,或太小。
1-太小会增加寻址时间,
2-太大则则从磁盘传输数据的时间会明显大于定位这个块开始位置时间。
hdfs块大小设置主要取决于磁盘的传输速率。
5.dfs是fs的实现类。
6.心跳机制
每3秒datanode给namenode发一个消息。
如果超过10分钟没收到,则判定datanode已经挂掉。
7.数据校验:奇偶校验
安全程度要求不高的,都是一般检查单点故障。多点故障一般不太会出现。
crc校验位。(16、32、64位)——原始数据的crc、和传过来的数据crc是否一致。
8.设置判断datanode挂掉时间
在hadoop文件中的:etc/hadoop/hdfs-site.xml中设置。