WHAT
HDFS:分布式文件系统
Feather:
- 检测和快速自动恢复
- 支持大文件存储
- 对文件实行一次写入、多次读取的访问模式
Drawback:
- 延迟高(对于低延迟的访问需求,可以使用HBase)
- 无法高效存储大量小文件
- 不支持修改文件,只能执行追加操作
Structure:
-
NameNode:管理文件系统的命名空间,维护文件系统树、所有文件、目录以及块的元数据,元数据有两种namespace image和edit log。
namenode拥有block和datanode之间的映射关系,但是它并不持久化这些信息,这些信息来源依赖于datanode启动时向namenode发送的报告。 - SecondaryNameNode:辅助的NameNode,周期性的将edit log文件合并(HDFS的HA机制)
- DataNode :datanode维护着最终的block,并定期向namenode发送该datanode包含的block列表(心跳机制)。
WHERE
HOW
- hadoop fs -ls : 查看HDFS下的文件列表
- hadoop fs -mkdir:创建目录
- hadoop fs -put:上传文件
- hadoop fs -get:下载文件到本地
- hadoop fs -cat:查看文件内容
- hadoop fs -rm:删除文件