avro(hdfs关联hive)

简介

  • avro是一种固定格式(schema),以文件为单位的 数据序列化系统(类似加密解密)
  • 支持二进制序列化方式,所以可以快速处理大量数据
  • 支持对数据流,javabean等 序列化 反序列化操作,传输等效率高
  • 就是由一个定义好的schema来读取的二进制文本文件。

个人业务分析

  • 大量数据需要落成文件,存放到HDFS并支持 hive外表关联查询(指定目录)
  • 数据入口:kafka
  • 数据出口:hive业务库

分析

  • kafka 实时接收数据落每日本地文件
  • 定时上传每日本地文件到 hive外表目录下
  • hive 外部表 关联(指定schema)

注意事项

  • avro 文件格式 [https://www.jianshu.com/p/a5c0cbfbf608]
  • 一个avro文件 文件由 header 和多个data block 组成,header由 消息包和指定 schema 以及压缩方式等组成
  • 所有一个文件只有一个schema,当写入数据前,首先根据当前记录匹配 header 的schema,如果不符合schema时,则会抛异常
  • 所以,对于单个文件来言,所有数据必须具有相同的schema
  • 写的schema中fields的数量 > 大于读的schema中fields数量时,那么将被忽略
  • 读的schema中fields数量 > 写的schema中fields的数量时,如果无默认值,则报错

Schema格式

{
"type": "record",
"name": "LongList",
"aliases": ["LinkedLongs"], // old name for this
"fields" : [
{"name": "value", "type": "long"}, // each element has a long
{"name": "next", "type": ["null", "LongList"]} // optional next element
]
}

代码

//根据传入的json串生成 schema串
public Map buildSchema(String arg) throws Exception {
        String prefix = "{\"type\":\"record\",\"name\":\"" + table_name + "\",\"fields\":[";
        String suffix = "]}";
        if (table_name == null) {
            throw new Exception("配置文件读取失败");
        }
        Map<String, String> hm = new HashMap<String, String>();
        JSONObject js_ob;
        try {
            js_ob = JSONObject.fromObject(arg);
        } catch (Exception e) {
            throw new Exception("参数有误,检查是否为Json格式");
        }
        Iterator it = js_ob.keys();
        String schemaPj = "";
        StringBuffer sbf = new StringBuffer();
        String finalSbf = "";

        while (it.hasNext()) {
            String key = (String) it.next();
            String value = js_ob.get(key).toString();
            schemaPj = "{\"name\":\"" + key + "\",\"type\":\"string\",\"default\":\"\"},";
            sbf.append(schemaPj);
            hm.put(key, value);
        }
        finalSbf = prefix + sbf.toString().substring(0, sbf.length() - 1) + suffix;
        schema = Schema.parse(finalSbf);

        return hm;
    }
/**生成本地 avro 文件
* @param data 数据流入(json 串)
**/
public void buildFile(String data) throws IOException {
        if (data != null) {
            // 根據入參獲取 schema
            HashMap<String, String> hm = null;
            try {
                hm = (HashMap) buildSchema(data);
            } catch (Exception e1) {
                e1.printStackTrace();
            }

            FileSystem fs = null;
            FilterOutputStream ps = null;

            // 允許 append
            conf.setBoolean("dfs.support.append", true);
            DataFileWriter<Record> writer = new DataFileWriter<Record>(new GenericDatumWriter<Record>(schema));
            InputStream in = null;
            try {
                Record tab = new GenericData.Record(schema);
                String dt = "";
    // 业务数据处理 区域-(根据传入数据时间日期生成日期目录,对应hive外部表partition)
                for (String key : hm.keySet()) {
                    if ("time".equals(key.trim())) {
                        String val = hm.get(key);
                        SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMdd");
                        dt = sdf.format(new Date(Long.valueOf(val)));
                        tab.put(key, val);
                        continue;
                    }
                    tab.put(key, hm.get(key));
                }
    // -----------------------------------------------------------
                // 本地路径落 avro 定时任务把文件传到 hive外部表路径
                String uri = localPath + folderName + dt;

                File file = new File(uri);
                if (!file.exists()) {
                    file.mkdir();
                }
                String file_url = uri + "/" + file_name;
                File newFile = new File(file_url);
                // File newFile = new File(file_url_new);
                // 如果存在路径 append 不存在 则创建
                if (!newFile.exists()) {
                    newFile.createNewFile();
                    newFile.setWritable(true, false);
                    writer.create(schema, newFile);
                } else {
//文件append 操作
                    writer.appendTo(newFile);
                }
                    writer.append(tab);

            } catch (Exception e) {
                System.out.println(e.getMessage());
            } finally {
                IOUtils.closeStream(in);
                writer.close();
            }
        }
    }

hive

//建立外部 schema
CREATE EXTERNAL TABLE avro_test1
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
STORED AS
INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
LOCATION '/user/tmp' (hdfs路径)
TBLPROPERTIES (
'avro.schema.url'='hdfs:///user/tmp/avsc/student.avsc' (外部 schema文件)
);


hadoop fs -cat /user/tmp/avsc/student.avsc
{
"type": "record",
"name": "student",
"namespace": "com.tiejia.avro",
"fields": [
{ "name":"SID", "type":"string","default":""},
{ "name":"Name", "type":"string","default":""},
{"name":"Dept", "type": "string","default":""},
{ "name":"Phone", "type":"string","default":""},
{"name":"Age", "type": "string","default":""},
{"name":"Date", "type": "string","default":""}
]}

ps:设置默认值,否则如果传入数据为 null 则报错


后记:由于传入数据schema 有七八种之多,原来使用的列式存储 Hbase,一种schema对应一个文件太过于麻烦,最后没有选型avro来实现,欢迎有想法的各位朋友、大神们指导下

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,875评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,569评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,475评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,459评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,537评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,563评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,580评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,326评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,773评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,086评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,252评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,921评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,566评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,190评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,435评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,129评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,125评论 2 352

推荐阅读更多精彩内容