UDF介绍及编程要点
Hive中自带了许多函数,方便数据的处理分析。但是有时候没有内部的函数来提供想要的功能,需要自定义函数(UDF)来实现想要的功能。
编写UDF需要下面两个步骤
- 继承org.apache.hadoop.hive.ql.UDF
- 实现evaluate函数,这个函数必须要有返回值,不能设置为void。同时建议使用mapreduce编程模型中的数据类型(Text,IntWritable等),因为hive语句会被转换为mapreduce任务。
针对具体问题实现UDF步骤
- 首先配置eclipse环境。创建maven项目后,在pom.xml中添加依赖。
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<hadoop.version>2.5.0</hadoop.version>
</properties>
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.5.0</version>
</dependency>
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-jdbc</artifactId>
<version>0.13.1</version>
</dependency>
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-exec</artifactId>
<version>0.13.1</version>
</dependency>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>3.8.1</version>
<scope>test</scope>
</dependency>
</dependencies>
-
针对实际问题分析需求
需求: 去除下列数据字段中的双引号
- 编写UDF代码及本地测试
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;
/*
* 去除字符串中的双引号
*/
public class signUDF extends UDF {
public Text evaluate(Text string) {
// 过滤
if (null == string) {
return null;
}
// 用来保存最后结果
Text result;
// 替换字符串的双引号为空
String s = string.toString().replaceAll("\"", "");
// 用中间结果生成返回值
result = new Text(s);
return result;
}
}
测试如下
输入:"wulei" "www"
输出:wulei www
- 打成jar包在hive中测试
-
打成jar包上穿至Linux中
- 关联jar包
hive (default)> add jar /opt/datas/signuUDF.jar;
Added /opt/datas/signuUDF.jar to class path
Added resource: /opt/datas/signuUDF.jar
- 创建方法(退出hive shell后将失效)
hive (default)> create temporary function my_udf as "hiveUDF.hiveUDF.signUDF";
OK
Time taken: 0.039 seconds
- 永久添加UDF的方法:配置hive-site.xml文件中的hive.aux.jars.path(辅助jar路径)属性,属性值为jar包的绝对路径
- 验证自定义函数
hive (test_db)> select * from test1;
OK
test1.ip test1.source
"192.168.200.5" "/wulei/in"
"192.168.200.4" "/wulei/out"
hive (test_db)> select my_udf(ip) from test1;
MapReduce Jobs Launched:
Job 0: Map: 1 Cumulative CPU: 1.7 sec HDFS Read: 276 HDFS Write: 28 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 700 msec
OK
_c0
192.168.200.5
192.168.200.4
Time taken: 41.616 seconds, Fetched: 2 row(s)