HIVE-udf&udaf&udtf

UDF

        输入一行数据输出一行数据。 

1.解决问题描述 

        想要比较两个逗号分隔的字符串是否相同。 

2.使用方法 

如果ignoreNullFlag是1,则两个字符串都是空算相等,如果不是1,算不等

        add jar /home/mart_wzyf/zhuhongmei/plist_udf_udaf.jar;

        CREATE TEMPORARY FUNCTION compareStringBySplit AS 'com.jd.plist.udf.TestUDF';

        SELECT compareStringBySplit("22,11,33","11,33,22",1) FROM scores;

        DROP TEMPORARY FUNCTION compareStringBySplit;

3.代码实现

java代码中用户必须要继承UDF,且必须至少实现一个evalute方法

package com.jd.plist.udf;

import org.apache.commons.lang.StringUtils;

import org.apache.hadoop.hive.ql.exec.UDF;

public classTestUDF extends UDF{ 

 private static final int MATCH = 1;

    private static final int NOT_MATCH = 0;

    /**    * 入参3个。    * @paramaids    * @parambids    * @paramignoreNullFlag    * @return*/   

 public int evaluate(String aids, String bids, int ignoreNullFlag) {

        if (StringUtils.isBlank(aids) && StringUtils.isBlank(bids)) {

            if (ignoreNullFlag == 1) {

                return MATCH;

            } else {

                return NOT_MATCH;

            }

        } else if (StringUtils.isBlank(aids) && !StringUtils.isBlank(bids)) {

            return NOT_MATCH;

        } else if (!StringUtils.isBlank(aids) && StringUtils.isBlank(bids)) {

            return NOT_MATCH;

        } else {

            String[] aidArray = aids.split(",");

            String[] bidArray = bids.split(",");

            for (String aid : aidArray) {

                boolean exist = false;

                for (String bid : bidArray) {

                    if (aid.equals(bid)) {

                        exist = true;

                    }

                }

                if (!exist) {

                    return NOT_MATCH;

                }

            }

            return MATCH;

        }

    }

}

UDAF 

        输入多行数据输出一行数据,一般在group by中使用。 

1.解决问题描述 

        自己实现将相同主id下的子id用逗号拼接 

2.使用方法

        add jar /home/mart_wzyf/zhuhongmei/plist_udf_udaf-0.0.1.jar;

        CREATE TEMPORARY FUNCTION concat_sku_id AS 'com.jd.plist.udaf.TestUDAF';

        select concat_sku_id(item_sku_id,',') from app.app_cate3_sku_info where dt = sysdate(-1) and item_third_cate_cd =870 group by main_sku_id;

        DROPTEMPORARYFUNCTION concat_sku_id;

3.java代码 

Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函数 

init初始化,iterate函数处理读入的行数据,terminatePartial返回iterate处理的中建结果,merge合并上述处理结果,terminate返回最终值。

package com.jd.plist.udaf;

import org.apache.hadoop.hive.ql.exec.UDAF;

import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;

public class TestUDAF extends UDAF {

    public static class TestUDAFEvaluator implements UDAFEvaluator {

        public static class PartialResult {

            String skuids;

            String delimiter;

        }

        private PartialResult partial;

        public void init() {

            partial = null;

        }

        public boolean iterate(String item_sku_id, String deli) {

            if (item_sku_id == null) {

                return true;

            }

            if (partial == null) {

                partial = new PartialResult();

                partial.skuids = new String("");

                if (deli == null || deli.equals("")) {

                    partial.delimiter = new String(",");

                } else {

                    partial.delimiter = new String(deli);

                }

            }

            if (partial.skuids.length() > 0) {

                partial.skuids = partial.skuids.concat(partial.delimiter);

            }

            partial.skuids = partial.skuids.concat(item_sku_id);

            return true;

        }

        public PartialResult terminatePartial() {

            return partial;

        }

        public boolean merge(PartialResult other) {

            if (other == null) {

                return true;

            }

            if (partial == null) {

                partial = new PartialResult();

                partial.skuids = new String(other.skuids);

                partial.delimiter = new String(other.delimiter);

            } else {

                if (partial.skuids.length() > 0) {

                    partial.skuids = partial.skuids.concat(partial.delimiter);

                }

                partial.skuids = partial.skuids.concat(other.skuids);

            }

            return true;

        }

        public String terminate() {

            return new String(partial.skuids);

        }

    }

UDTF 

        udtf用来实现一行输入多行输出 

1.用途 

        将字符串(key1:20;key2:30;key3:40)按照分好拆分行按照冒号拆分列进行展示。 

2.使用方法

        add jar /home/mart_wzyf/zhuhongmei/plist_udf_udaf-0.0.3.jar;

        CREATETEMPORARYFUNCTION explode_mapAS'com.jd.plist.udtf.TestUDTF'; 

        select explode_map(mapstrs) as (col1,col2) from app.app_test_zhuzhu_maps;

        DROP TEMPORARY FUNCTION explode_map;

3.java代码 

initialize初始化校验参数是否正确。process处理返回结果。forward将结果返回

package com.jd.plist.udtf;

import java.util.ArrayList;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;

import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;

import org.apache.hadoop.hive.ql.metadata.HiveException;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;

import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;

import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory; 

public class TestUDTF extends GenericUDTF {

    @Override

    public void close() throws HiveException {

        // TODO Auto-generated method stub

    }

    @Override

    public StructObjectInspector initialize(ObjectInspector[] args) throws UDFArgumentException {

        if (args.length != 1) {

            throw new UDFArgumentLengthException("ExplodeMap takes only one argument");        }

        if (args[0].getCategory() != ObjectInspector.Category.PRIMITIVE) {

            throw new UDFArgumentException("ExplodeMap takes string as a parameter");        }

        ArrayList fieldNames = new ArrayList();        

ArrayList fieldOIs = new ArrayList();        

fieldNames.add("col1");        

fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);        

fieldNames.add("col2");        

fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);        

return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);   

 }

    @Override

    public void process(Object[] args) throws HiveException {

        String input = args[0].toString();        

        String[] test = input.split(";");        

        for (int i = 0; i < test.length; i++) {            

        try {

                String[] result = test[i].split(":");                

                forward(result);           

             } catch (Exception e) {

                continue;            

}

        }

    }

}

-注意UDTF使用 

UDTF有两种使用方法,一种直接放到select后面,一种和lateral view一起使用。 

1:直接select中使用

selectexplode_map(properties)as(col1,col2)fromsrc;

2.不可以添加其他字段使用

select a, explode_map(properties) as (col1,col2) from src

3.不可以嵌套调用

select explode_map(explode_map(properties)) from src

4.不可以和group by/cluster by/distribute by/sort by一起使用
select explode_map(properties) as (col1,col2) from src group by col1, col2

5:和lateral view一起使用

selectsrc.id, mytable.col1, mytable.col2fromsrc lateralviewexplode_map(properties) mytableascol1, col2;

此方法更为方便日常使用。执行过程相当于单独执行了两次抽取,然后union到一个表里。


注:仅供学习交流参考下列资料整理

https://blog.csdn.net/dreamingfish2011/article/details/51283542

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容