Hive的UDF编程-GenericUDF编程

UDF简介

在Hive中,用户可以自定义一些函数,用于扩展HiveQL的功能,而这类函数叫做UDF(用户自定义函数)。UDF分为两大类:UDAF(用户自定义聚合函数)和UDTF(用户自定义表生成函数)。在介绍UDAF和UDTF实现之前,我们先在本章介绍简单点的UDF实现——UDF和GenericUDF,然后以此为基础在下一章介绍UDAF和UDTF的实现。

Hive有两个不同的接口编写UDF程序。

一个是基础的UDF接口,一个是复杂的GenericUDF接口。
UDF 基础UDF的函数读取和返回基本类型,即Hadoop和Hive的基本类型。如,Text、IntWritable、LongWritable、DoubleWritable等。
GenericUDF 复杂的GenericUDF可以处理Map、List、Set类型。

注解的使用
@Describtion注解是可选的,用于对函数进行说明,其中的FUNC字符串表示函数名,当使用DESCRIBE FUNCTION命令时,替换成函数名。@Describtion包含三个属性:

  • name:用于指定Hive中的函数名。
  • value:用于描述函数的参数。
  • extended:额外的说明,如,给出示例。当使用DESCRIBE FUNCTION EXTENDED name的时候打印。

而且,Hive要使用UDF,需要把Java文件编译、打包成jar文件,然后将jar文件加入到CLASSPATH中,最后使用CREATE FUNCTION语句定义这个Java类的函数:

hive> ADD jar /root/experiment/hive/hive-0.0.1-SNAPSHOT.jar;
hive> CREATE TEMPORARY FUNCTION hello AS "edu.wzm.hive. HelloUDF";
hive> DROP TEMPORARY FUNCTION IF EXIST hello;

具体的打包方式,在上一篇的坐标转换UDF中有详细的介绍

这次我们重点介绍GenericUDF,继承这个类需要实现三个方法

//这个方法只调用一次,并且在evaluate()方法之前调用。该方法接受的参数是一个ObjectInspectors数组。该方法检查接受正确的参数类型和参数个数。  
abstract ObjectInspector initialize(ObjectInspector[] arguments);  
  
//这个方法类似UDF的evaluate()方法。它处理真实的参数,并返回最终结果。  
abstract Object evaluate(GenericUDF.DeferredObject[] arguments);  
  
//这个方法用于当实现的GenericUDF出错的时候,打印出提示信息。而提示信息就是你实现该方法最后返回的字符串。  
abstract String getDisplayString(String[] children);  

需求

这里我们设置一个需求是这样的,在一个sql中查找某列数组是否包含另外一个值。下面这个例子中就是需要实现hello这个函数

//举一个简单的seq例子,,因为在切割后的数组中会包含aaa,所以我们希望的返回结果是true,
select hello(split('aaa,bbb',','),'aaa');

下面是我们的GenericUDF函数的代码

/**
 * Copyright (C), 2015-2019, XXX有限公司
 * FileName: GenericUDFArrayTest
 * Author:   72038714
 * Date:     2019/7/24 11:45
 * Description: xxx
 * History:
 * <author>          <time>          <version>          <desc>
 * shipengfei                    版本号              描述
 */
package udf.generic;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
import org.apache.hadoop.hive.serde2.objectinspector.ListObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorUtils;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.apache.hadoop.io.BooleanWritable;


/**
 * 〈一句话功能简述〉<br> 
 * 〈xxx〉
 *
 * @author 72038714
 * @create 2019/7/24
 * @since 1.0.0
 */
public class GenericUDFArrayTest extends GenericUDF {

    private transient ObjectInspector value0I;
    private transient ListObjectInspector arrayOI;
    private transient ObjectInspector arrayElementOI;
    private BooleanWritable result;


    public ObjectInspector initialize(ObjectInspector[] objectInspectors) throws UDFArgumentException {

        //判断是否输入的参数为2
        if (objectInspectors.length != 2){
            throw new UDFArgumentException("args must accept 2 args");
        }

        //判断第一个参数是否是list
        if (!(objectInspectors[0].getCategory().equals(ObjectInspector.Category.LIST))){
            throw new UDFArgumentTypeException(0, "\"array\" expected at function ARRAY_CONTAINS, but \""
                    + objectInspectors[0].getTypeName() + "\" " + "is found");
        }

        //将参数赋值给私有变量
        this.arrayOI = ((ListObjectInspector) objectInspectors[0]);
        this.arrayElementOI=this.arrayOI.getListElementObjectInspector();
        this.value0I= objectInspectors[1];

        //数组元素是否与第二个参数类型相同
        if(!(ObjectInspectorUtils.compareTypes(this.arrayOI,this.value0I))) {
            throw new UDFArgumentTypeException(1,
                    "\"" + this.arrayElementOI.getTypeName() + "\"" + " expected " +
                            "at function ARRAY_CONTAINS, but "
                            + "\"" + this.value0I.getTypeName() + "\"" + " is found");
        }

        //判断ObjectInspector是否支持第二个参数类型
        if (!(ObjectInspectorUtils.compareSupported(this.value0I))) {
                throw new UDFArgumentException("The function ARRAY_CONTAINS does not support comparison for \""
                        + this.value0I.getTypeName() + "\"" + " types");

        }

        this.result=new BooleanWritable(true);
            return PrimitiveObjectInspectorFactory.writableBooleanObjectInspector;
    }



    public Object evaluate(DeferredObject[] deferredObjects) throws HiveException {
        this.result.set(false);

        Object array= deferredObjects[0].get();

        Object value= deferredObjects[1].get();

        Integer arrayLength = this.arrayOI.getListLength(array);

        //传入第二个参数是否为nul,或者传入参数长度为0 检验传入参数
        if (value == null || arrayLength<=0){
            return this.result;
        }

        //遍历array中的类型,判断是否与第二个参数相等
        for (int i=0;i<arrayLength;i++) {
            Object listElement = this.arrayOI.getListElement(array, i);

            //判断包含如果本次循环的数组元数为null,或者没有匹配成功,跳过本次循环
            if (listElement == null || ObjectInspectorUtils.compare(value,value0I,listElement,arrayOI) != 0){
                continue;
            }
            //如果匹配成功,将result设置为true
            result.set(true);

            break;

        }

        return result;
    }

    public String getDisplayString(String[] strings) {
        assert (strings.length == 2);
        return "array_contains(" + strings[0] + ", " + strings[1] + ")";
    }
}

创建函数

  1. 代码编写完成后,将代码打包
  2. 将打包后的文件上传到分布式集群
  3. 启动hive 使用add jar命令 add jar 上传的路径/*.jar文件
  4. hive执行 create function hello as 'udf.generic.GenericUDFArrayTest';
  5. 执行需求提出的sql代码,测试放回结果;

ps:为了防止代码书写错误,可以先复制代码创建好函数测试,再做代码的理解

文章参考

作者:raincoffee
链接:https://www.jianshu.com/p/ca9dce6b5c37

有问题欢迎留言讨论

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容