内容参考:
慕课网--HIve进阶
一、hive的数据导入
(1) load命令
Load语法:
Load data [local] inpath ‘filepath’[overwrite]
Into table tablename [partition (partcol1=val1,partcol2=val2…)]
(2) Sqoop组件
Sqoop是apache下的开源框架,专门用来做数据的导入导出(批量数据)
注意:Insert在hive中不支持
二、Hive的数据查询
1. 简单查询
Select * from table
--这样的语句不会进行MR,直接返回结果
Fetch Task功能(从Hive10.0版本开始支持):支持简单查询
配置方式:
Set hive.fetch.task.conversion=more
Hive –hiveconf hive.fetch.task.conversion=more
修改hive-site.xml文件
注意: NULL空值需要用is 关键字
函数NVL():当值为空时可以转换为特定数值
2. 过滤和查询
在hive HQL中严格区分大小写
Order by 后面可以跟:列,表达式,别名,序号
三、Hive的函数
分为内置函数,自定义函数
内置函数有以下几种:
数学函数:
- Round()函数:四舍五入
Select round(45.111,2), round(45.111,1), round(45.111,0), round(45.111,-1), round(45.111,-2)
- Ceil()函数:向上取整
- Floor()函数:向下取整
字符函数:
Lower(),Upper(),Length(),concat():拼接字符串,substr():取字符串子串,trim():去掉字符串前后的空格,lpad():左填充,rpad():右填充
例子:substr(a,b):从a中,第b位开始取,取右边所有的字符
substr(a,b,c):从a中,第b位开始取,取c个字符
lpad(”abc”,10,‘-’): 对abc这个字符长度填充到10位,用*填充
收集函数:size():收集map集合的长度
格式:
size(map(<key,value>,<key,value>))
如size(map(1,’TOM’,2,‘MARRY’)),返回的值为2
转换函数:cast(),转换数据类型
cast(1 as float):转换数字类型,返回结果为1.0
Cast(‘2015-04-10’ as date),返回日期格式
日期函数:
To_date(),year(),month(),day(),weekofday(),datediff(),date_add(),date_sub()等等
to_date(‘2015-04-23 11:23:11’)返回结果为:2015-04-23
条件函数:
Coalesce():从左到右找到第一个不为null的值
Case…when…:条件表达式
Case a when b then c [where a then e]* [else f] end
例子:
//给员工涨工资,总裁1000,经理800,其他员工400
Select ename,job,sal,
Case job when’president’ then sal+1000
When’manager’then sal+800
Else sai+400
End
From emp;
聚合函数
Count(),sum(),min(),max(),avg()
表生成函数
Explode():把map或者表结构中的一列单独生成一行
例子:
Select explode(map(1,’tom’,2,‘marry’,3,’mike’))
返回结果:
1 tom
2 marray
3 mike
四、Hive的表连接
支持以下连接:
等值连接,不等值连接,外连接,自连接
外连接:可以将对于连接条件不成立的记录依然包含在最后的结果中,包括左外连接和右外连接
自连接:核心是通过表的别名将同一张表视为多张表
Hive的子查询需要注意的问题:
- 语法中的括号
- 合理的书写风格
- Hive只支持:from和where子句中的子查询
- 主查询和子查询可以不是同一张表
- 子查询中的空值问题
查询结果如果包含null,则不能使用not in关键字
例子:select * from emp e where e.empno not in (select e1.mgr from emp e1 where e1.mgr is not null);
五、Hive的JDBC客户端操作
启动Hive远程服务
hive --service hiveserver
两种方式可以操作hive中的数据
(1) JDBC
步骤:
(2)Thrift Client
六、Hive自定义函数的使用
自定义函数部署运行步骤:
使用自定义函数:
Select <函数名> from table
销毁临时函数:
Hive> drop temporary function <函数名>;
总结:
1、Hive是一个数据仓库,用来支持OLAP的应用,构建在Hadoop集群之上,数据存储在HDFS中,在Hive中的操作会转换成MapReduce的作业。
2、Hive支持类似SQL的HQL语言
3、Hive采用元数据对表进行管理
三种存放方式如下:
4、Hive提供非常强大的编程接口
三种: