hadoop hdfs 被设计用作海量数据存储,适合存储大文件,文件在hdfs中是以block的形式存储的,在hadoop 1.x中,hdfs block的默认大小为64m,而在hadoop 2.x中,block的默认大小为128m,可以在hdfs-site.xml文件中的dfs.block.size配置项修改默认的块大小。文件由一个或多个block组成,文件的元数据信息由namenode记录,因此如果hdfs存储大量的小文件时,会占用大量的block以及namenode必须耗费大量内存来记录这些文件的元数据,造成存储空间浪费以及影响hdfs 集群的横向扩展。因此以下两种方案可以用来处理hdfs 小文件的问题:
1.sequencefile
2.hadoop archives file
SequenceFile
sequencefile 由header和一个个记录组成,header记录着keyclass 类型,valueclass 类型,压缩信息以及用户自定义的信息,记录record存储的是真正的数据并以key-value的格式进行存储,sequencefile文件按压缩可分为无压缩格式,记录压缩格式和块压缩格式。无压缩格式和记录压缩格式相似,唯一的区别是记录压缩格式是值压缩,格式如下图所示:
而块压缩是对record进行压缩,一个块由多个record组成,当一个record的大小达到io.seqfile.compress.blockseze 默认1000000字节时,可加入到块中,格式如图所示:
示例代码
package com.zjc.spark;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.DefaultCodec;
import org.apache.hadoop.util.LineReader;
import java.io.File;
import java.io.FileInputStream;
/**
* Created by zjc on 2018/11/14.
*/
public class sparkApplication1 {
static Configuration configuration = null;
static {
configuration = new Configuration();
configuration.set("fs.defaultFS", "hdfs://z-cluster");
configuration.set("dfs.nameservices", "z-cluster");
configuration.set("dfs.ha.namenodes.z-cluster", "nn1,nn2");
configuration.set("dfs.namenode.rpc-address.z-cluster.nn1", "192.168.1.22:8120");
configuration.set("dfs.namenode.rpc-address.z-cluster.nn2", "192.168.1.107:8120");
configuration.set("dfs.client.failover.proxy.provider.z-cluster", "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider");
configuration.set("hadoop.user.name", "hadoop4.27");
}
public static void main6(String[] args) {
IntWritable key = new IntWritable();
Text value = new Text();
SequenceFile.Writer out = null;
try {
FileSystem fileSystem = FileSystem.get(configuration);
out = SequenceFile.createWriter(configuration, SequenceFile.Writer.file(new Path("/testFile")), SequenceFile.Writer.keyClass(IntWritable.class), SequenceFile.Writer.valueClass(Text.class), SequenceFile.Writer.compression(SequenceFile.CompressionType.BLOCK, new DefaultCodec()));
for (int i = 0; i < 100; i++) {
key.set(100 - i);
value.set(DATA[i % DATA.length]);
out.append(key, value);
if (i % 20 == 0) {
out.sync();//每四百条记录添加一个同步点
}
}
} catch (Exception e) {
System.out.println(e);
} finally {
IOUtils.closeStream(out);
}
}
public static void main18(String[] args) {
IntWritable key = new IntWritable();
Text value = new Text();
SequenceFile.Reader in = null;
try {
in = new SequenceFile.Reader(configuration, SequenceFile.Reader.file(new Path("/testFile")));
// in.sync(2129);
long position = in.getPosition();
while (in.next(key, value)) {
System.out.println("position:" + position + " key:" + key.get() + " value:" + value.toString());
position = in.getPosition();
}
} catch (Exception e) {
System.out.println(e);
} finally {
IOUtils.closeStream(in);
}
}
}
可通过mr将多个小文件合并成一个sequencefile文件,但是sequencefile的缺点是不支持追加。
Hadoop Archives File
可通过hdfs shell命令将多个小文件创建为归档文件,归档示例:
创建归档文件
hadoop archive -archiveName foo.har -p /user/hadoop -r 3 dir1 dir2 /user/zoo
上面的例子使用 /user/hadoop 作为创建归档的相对归档目录。/user/hadoop/dir1 和 /user/hadoop/dir2 目录将会归档到 /user/zoo/foo.har 里面。归档操作并不会删除输入文件。如果你想在创建归档文件之后删除这些输入文件,你需要自己做。在这个例子中,因为我们指定了 -r 3,那么副本因子为3将会被使用。
查找文件
在 hadoop 档案中查找文件就像在文件系统上执行 ls 一样简单。在我们归档完 /user/hadoop/dir1 和 /user/hadoop/dir2 目录,如果我们想查看归档里面有哪些文件,你仅仅需要使用下面命令:
hdfs dfs -ls -R har:///user/zoo/foo.har/
要理解-p 参数的重要性,让我们再看一遍上面的例子。 如果您只是在 hadoop 存档上使用 ls(而不是lsr)
hdfs dfs -ls har:///user/zoo/foo.har
输出如下:
har:///user/zoo/foo.har/dir1
har:///user/zoo/foo.har/dir2
您可以回忆一下使用以下命令创建存档
hadoop archive -archiveName foo.har -p /user/hadoop dir1 dir2 /user/zoo
如果我们将上面命令修改为下:
hadoop archive -archiveName foo.har -p /user/ hadoop/dir1 hadoop/dir2 /user/zoo
那么在 Hadoop 归档上如下使用 ls 命令:
hdfs dfs -ls har:///user/zoo/foo.har
那么你会得到如下结果:
har:///user/zoo/foo.har/hadoop/dir1
har:///user/zoo/foo.har/hadoop/dir2
请注意,已归档文件已相对于 /user/ 而不是/ user/hadoop 进行归档。
Hadoop Archives 和 MapReduce
在 MapReduce 中使用 Hadoop Archives 就像使用默认文件系统中的文件一样简单。 如果我们在 HDFS 上的 /user/zoo/foo.har 路径里面存储了 Hadoop 归档文件,那么在 MapReduce 里面将它作为输入文件可以使用 har:///user/zoo/foo.har。
Hadoop Archives 是根据索引文件对目标文件进行读取,所以读性能比正常读取低下。