分布式文件系统起源于google文件系统,是后者的开源实现,主要解决大数据量数据的存放问题。他拥有一个管理器namenode ,其余多个datanode存放数据,它的一个数据会被备份3次,可以在配置中指定。如果一个datanode挂掉,新的datanode会重新从备份的datanode中复制数据。
HDFS不适合大量的小文件,它默认的文件大小是64MB,如果有大量的小文件可能导致Namenode的内存紧张或者崩溃!并且可能大致大量的网络通信,形成性能瓶颈!在mapreduce计算中可能导致大量的map操作,降低速度!为避免这个问题,你可以在存入之前先聚合文件,或者存入Hbase或hive等数据库,还可以使用CombineFileInputFormat 类来聚合先文件!
APIS HDFS提供原生的java api ,使用org.apache.hadoop.fs.FileSystem 类。它还提供c api 和rest api。你也可以使用sqoop等工具。也可以使用flume将数据流导入HDFS。
也可以使用命令行进行交互式控制。
例如:
查看/目录下的文件或目录,
hadoop fs -ls /
将本地的文件推到HDFS文件系统中
hadoop fs -put /usr/local/yarn/hadoop-2.7.3/README.txt /hello # 第一个为本地文件系统