hadoop 小文件处理方案

hadoop hdfs 被设计用作海量数据存储,适合存储大文件,文件在hdfs中是以block的形式存储的,在hadoop 1.x中,hdfs block的默认大小为64m,而在hadoop 2.x中,block的默认大小为128m,可以在hdfs-site.xml文件中的dfs.block.size配置项修改默认的块大小。文件由一个或多个block组成,文件的元数据信息由namenode记录,因此如果hdfs存储大量的小文件时,会占用大量的block以及namenode必须耗费大量内存来记录这些文件的元数据,造成存储空间浪费以及影响hdfs 集群的横向扩展。因此以下两种方案可以用来处理hdfs 小文件的问题:
1.sequencefile
2.hadoop archives file

SequenceFile

sequencefile 由header和一个个记录组成,header记录着keyclass 类型,valueclass 类型,压缩信息以及用户自定义的信息,记录record存储的是真正的数据并以key-value的格式进行存储,sequencefile文件按压缩可分为无压缩格式,记录压缩格式和块压缩格式。无压缩格式和记录压缩格式相似,唯一的区别是记录压缩格式是值压缩,格式如下图所示:


image.png

而块压缩是对record进行压缩,一个块由多个record组成,当一个record的大小达到io.seqfile.compress.blockseze 默认1000000字节时,可加入到块中,格式如图所示:


image.png

示例代码

package com.zjc.spark;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.DefaultCodec;
import org.apache.hadoop.util.LineReader;

import java.io.File;
import java.io.FileInputStream;

/**
 * Created by zjc on 2018/11/14.
 */

public class sparkApplication1 {

    static Configuration configuration = null;

    static {
        configuration = new Configuration();
        configuration.set("fs.defaultFS", "hdfs://z-cluster");
        configuration.set("dfs.nameservices", "z-cluster");
        configuration.set("dfs.ha.namenodes.z-cluster", "nn1,nn2");
        configuration.set("dfs.namenode.rpc-address.z-cluster.nn1", "192.168.1.22:8120");
        configuration.set("dfs.namenode.rpc-address.z-cluster.nn2", "192.168.1.107:8120");
        configuration.set("dfs.client.failover.proxy.provider.z-cluster", "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider");
        configuration.set("hadoop.user.name", "hadoop4.27");
    }

    public static void main6(String[] args) {
        IntWritable key = new IntWritable();
        Text value = new Text();
        SequenceFile.Writer out = null;
        try {
            FileSystem fileSystem = FileSystem.get(configuration);
            out = SequenceFile.createWriter(configuration, SequenceFile.Writer.file(new Path("/testFile")), SequenceFile.Writer.keyClass(IntWritable.class), SequenceFile.Writer.valueClass(Text.class), SequenceFile.Writer.compression(SequenceFile.CompressionType.BLOCK, new DefaultCodec()));
            for (int i = 0; i < 100; i++) {
                key.set(100 - i);
                value.set(DATA[i % DATA.length]);
                out.append(key, value);
                if (i % 20 == 0) {
                    out.sync();//每四百条记录添加一个同步点
                }

            }

        } catch (Exception e) {
            System.out.println(e);
        } finally {
            IOUtils.closeStream(out);
        }
    }

 
    public static void main18(String[] args) {
        IntWritable key = new IntWritable();
        Text value = new Text();
        SequenceFile.Reader in = null;
        try {
            in = new SequenceFile.Reader(configuration, SequenceFile.Reader.file(new Path("/testFile")));
            // in.sync(2129);
            long position = in.getPosition();
            while (in.next(key, value)) {
                System.out.println("position:" + position + "  key:" + key.get() + "  value:" + value.toString());
                position = in.getPosition();
            }
        } catch (Exception e) {
            System.out.println(e);
        } finally {
            IOUtils.closeStream(in);
        }
    }


}

可通过mr将多个小文件合并成一个sequencefile文件,但是sequencefile的缺点是不支持追加。

Hadoop Archives File

可通过hdfs shell命令将多个小文件创建为归档文件,归档示例:

创建归档文件
hadoop archive -archiveName foo.har -p /user/hadoop -r 3 dir1 dir2 /user/zoo
上面的例子使用 /user/hadoop 作为创建归档的相对归档目录。/user/hadoop/dir1 和 /user/hadoop/dir2 目录将会归档到 /user/zoo/foo.har 里面。归档操作并不会删除输入文件。如果你想在创建归档文件之后删除这些输入文件,你需要自己做。在这个例子中,因为我们指定了 -r 3,那么副本因子为3将会被使用。

查找文件
在 hadoop 档案中查找文件就像在文件系统上执行 ls 一样简单。在我们归档完 /user/hadoop/dir1 和 /user/hadoop/dir2 目录,如果我们想查看归档里面有哪些文件,你仅仅需要使用下面命令:

hdfs dfs -ls -R har:///user/zoo/foo.har/
要理解-p 参数的重要性,让我们再看一遍上面的例子。 如果您只是在 hadoop 存档上使用 ls(而不是lsr)

hdfs dfs -ls har:///user/zoo/foo.har
输出如下:

har:///user/zoo/foo.har/dir1
har:///user/zoo/foo.har/dir2
您可以回忆一下使用以下命令创建存档

hadoop archive -archiveName foo.har -p /user/hadoop dir1 dir2 /user/zoo
如果我们将上面命令修改为下:

hadoop archive -archiveName foo.har -p /user/ hadoop/dir1 hadoop/dir2 /user/zoo
那么在 Hadoop 归档上如下使用 ls 命令:

hdfs dfs -ls har:///user/zoo/foo.har
那么你会得到如下结果:

har:///user/zoo/foo.har/hadoop/dir1
har:///user/zoo/foo.har/hadoop/dir2
请注意,已归档文件已相对于 /user/ 而不是/ user/hadoop 进行归档。

Hadoop Archives 和 MapReduce
在 MapReduce 中使用 Hadoop Archives 就像使用默认文件系统中的文件一样简单。 如果我们在 HDFS 上的 /user/zoo/foo.har 路径里面存储了 Hadoop 归档文件,那么在 MapReduce 里面将它作为输入文件可以使用 har:///user/zoo/foo.har。

Hadoop Archives 是根据索引文件对目标文件进行读取,所以读性能比正常读取低下。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,245评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,749评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,960评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,575评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,668评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,670评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,664评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,422评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,864评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,178评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,340评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,015评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,646评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,265评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,494评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,261评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,206评论 2 352

推荐阅读更多精彩内容