登录注册写文章

Hive开发自定义函数UDF

Hive开发自定义函数UDF

Hive 内置函数

Date Functions
Conditional Functions
Misc. Functions

Hive自定义函数

UDF(User-Defined-Function) 一进一出
UDAF(User- Defined Aggregation Funcation) 聚集函数，多进一出。Count/max/min
UDTF(User-Defined Table-Generating Functions) 一进多出，如explode()
使用方式：在HIVE会话中add 自定义函数的jar文件，然后创建function继而使用函数

UDF 开发

UDF函数可以直接应用于select语句，对查询结构做格式化处理后，再输出内容
编写UDF函要注意以下几点：
a. 自定义UDF需要继承org.apache.hadoop.hive.ql.exec.UDF
b. 需要实现evaluate函数，evaluate函数支持重载
步骤
a. 把程序打包放到目标机器上去；
b. 进入hive客户端，添加jar包：hive> add jar /run/jar/udf_test.jar;
c. 创建临时函数：hive> CREATE TEMPORARY FUNCTION add_example AS 'hive.udf.Add';
d. 销毁临时函数：hive> DROP TEMPORARY FUNCTION add_example;
e. 查询HQL语句：

SELECT add_example(8, 9) FROM scores;
SELECT add_example(scores.math, scores.art) FROM scores;
SELECT add_example(6, 7, 8, 6.8) FROM scores;

Hive的UDF开发只需要重构UDF类的evaluate函数即可

package com.hrj.hive.udf;
import org.apache.hadoop.hive.ql.exec.UDF;
public class helloUDF extends UDF {
    public String evaluate(String str) {
        try {
            return "HelloWorld " + str;
        } catch (Exception e) {
            return null;
        }
    }
}

Hive 自定义函数调用

将该java文件编译成helloudf.jar
hive> add jar helloudf.jar;
hive> create temporary function helloworld as 'com.hrj.hive.udf.helloUDF';
hive> select helloworld(t.col1) from t limit 10;
hive> drop temporary function helloworld;

1.helloworld为临时的函数，所以每次进入hive都需要add jar以及create temporary操作
2.UDF只能实现一进一出的操作，如果需要实现多进一出，则需要实现UDAF

Hive复合数据类型

Hive操作复合类型

最后编辑于：2018.12.12 15:36:43

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

hive中UDF和UDAF使用说明
Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4...
本宝宝天然萌阅读 2,613评论 0赞 4
Hadoop数据分析平台实战——140Hive函数以及自定义函数讲解
离线数据分析平台实战——140Hive函数以及自定义函数讲解 Hive函数介绍 HQL内嵌函数只有195个函数(包...
Albert陈凯阅读 1,012评论 0赞 2

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
Joyyx阅读 8,524评论 0赞 16
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
草里有只羊阅读 18,587评论 0赞 85
pySpark 中文API (2)
pyspark.sql模块模块上下文 Spark SQL和DataFrames的重要类： pyspark.sql...
mpro阅读 9,983评论 0赞 13

友情链接更多精彩内容

赞1赞

赞赏

手机看全文