Hive查询

1、Select

hive (default)> select * from XX; //全表查询    
hive (default)> select 列名,列名 from XX; //特定列查询

注意:
(1)SQL 语言大小写不敏感。
(2)SQL 可以写在一行或者多行
(3)关键字不能被缩写也不能分行
(4)各子句一般要分行写。
(5)使用缩进提高语句的可读性。

列别名

重命名一个列,便于计算。紧跟列名,也可以在列名和别名之间加入关键字‘AS’
查询名称和部门
hive (default)> select ename AS name, deptno dn from emp;

算术运算符

常用函数

求总行数(count)
hive (default)> select count(*) cnt from emp;

求工资的最大值(max)
hive (default)> select max(sal) max_sal from emp;

Snipaste_2020-06-08_16-06-56.png

求工资的最小值(min)
hive (default)> select min(sal) min_sal from emp;

求工资的总和(sum)
hive (default)> select sum(sal) sum_sal from emp;

求工资的平均值(avg)
hive (default)> select avg(sal) avg_sal from emp;

比较运算符

(1) 查询出薪水等于 5000 的所有员工
select * from emp where sal =5000;
(2) 查询工资在 500 到 1000 的员工信息
select * from emp where sal between 500 and 1000;
(3) 查询comm 为空的所有员工信息
select * from emp where comm is null;
(4) 查询工资是 1500 或 5000 的员工信息
select * from emp where sal IN (1500, 5000);

Limit

典型的查询会返回多行数据。LIMIT 子句用于限制返回的行数。
hive (default)> select * from emp limit 5;

where

使用WHERE 子句,将不满足条件的行过滤掉
WHERE 子句紧随 FROM 子句
hive (default)> select * from emp where sal >1000;

Like、RLike

查找以 2 开头薪水的员工信息
hive (default)> select * from emp where sal LIKE '2%';
查找第二个数值为 2 的薪水的员工信息
hive (default)> select * from emp where sal LIKE '_2%';
查找薪水中含有 2 的员工信息
hive (default)> select * from emp where sal RLIKE '[2]';

Snipaste_2020-06-08_16-19-33.png

逻辑运算符(And/Or/Not)

查询薪水大于 1000,部门是 30
hive (default)> select * from emp where sal>1000 and deptno=30;
查询薪水大于 1000,或者部门是 30
hive (default)> select * from emp where sal>1000 or deptno=30;
查询除了 20 部门和 30 部门以外的员工信息
hive (default)> select * from emp where deptno not IN(30, 20);

Snipaste_2020-06-08_16-20-17.png

分组

Group By

GROUP BY 语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组, 然后对每个组执行聚合操作
(1)计算emp 表每个部门的平均工资

hive (default)> select t.deptno, avg(t.sal) avg_sal from emp t group by t.deptno;
image.png

(2)计算emp 每个部门中每个岗位的最高薪水

hive (default)> select t.deptno, t.job, max(t.sal) max_sal from emp t group by t.deptno, t.job;
image.png

Having语句

having 只用于 group by 分组统计语句

求每个部门的平均薪水大于 2000 的部门

select deptno, avg(sal) avg_sal from emp group by deptno having avg_sal > 2000;
image.png

Join

Hive 支持通常的 SQL JOIN 语句,但是只支持等值连接,不支持非等值连接。
根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称
//取出 e.empno, e.ename, d.deptno, d.dname四列。命名为e,join dept,命名为d, jion条件on e.deptno = d.deptno

hive (default)> select e.empno, e.ename, d.deptno, d.dname from emp e join dept d
on e.deptno = d.deptno;
Snipaste_2020-06-08_18-07-37.png

表别名

好处:
使用别名可以简化查询。
使用表名前缀可以提高执行效率
合并员工表和部门表

select e.empno, e.ename, d.deptno from emp e join dept d on e.deptno= d.deptno;

内连接:只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。

hive (default)> select e.empno, e.ename, d.deptno from emp e join dept d 
on e.deptno= d.deptno;

左外连接:JOIN 操作符左边表中符合WHERE 子句的所有记录将会被返回。

hive (default)> select e.empno, e.ename, d.deptno from emp e left join dept d on e.deptno = d.deptno;

右外连接:JOIN 操作符右边表中符合WHERE 子句的所有记录将会被返回。

hive (default)> select e.empno, e.ename, d.deptno from emp e right join dept d on e.deptno = d.deptno;

全(满)外连接:将会返回所有表中符合 WHERE 语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话,那么就使用 NULL 值替代。

hive (default)> select e.empno, e.ename, d.deptno from emp e full join dept d on e.deptno = d.deptno;

多表连接

实践

create table if not exists default.location( loc int,
loc_name string
)
row format delimited fields terminated by '\t';

load data local inpath '/home/data/loc.txt' into table location;
Snipaste_2020-06-08_21-50-17.png

多表连接查询

SELECT e.ename, d.deptno, l.loc_name 
FROM    emp e
JOIN    dept d
ON  d.deptno = e.deptno 
JOIN    location l
ON  d.loc = l.loc;
join.png

大多数情况下,Hive 会对每对 JOIN 连接对象启动一个 MapReduce 任务。
本例中会首先启动一个 MapReduce job 对表e 和表 d 进行连接操作,
然后会再启动一个 MapReduce job 将第一个 MapReduce job 的输出和表 l;进行连接操作。
注意:为什么不是表 d 和表 l 先进行连接操作呢?这是因为 Hive 总是按照从左到右的顺序执行的。

排序

全局排序(Order By)

Order By:全局排序,一个 Reducer

使用 ORDER BY 子句排序
ASC(ascend): 升序(默认)
DESC(descend): 降序

ORDER BY 子句在SELECT 语句的结尾
案例实操:
查询员工信息按工资升序排列
select * from emp order by sal;
查询员工信息按工资降序排列
select * from emp order by sal desc;
按照员工薪水的 2 倍排序
select ename, sal*2 twosal from emp order by twosal;
按照部门和工资升序排序
select ename, deptno, sal from emp order by deptno, sal ;

orderby.png

每个 MapReduce 内部排序(Sort By)

Sort By:每个 Reducer 内部进行排序,对全局结果集来说不是排序,多个reduce个数

设置reduce 个数
set mapreduce.job.reduces=3;

根据部门编号降序查看员工信息
select * from emp sort by empno desc;

分区排序(Distribute By)

Distribute By:类似 MR 中 partition,进行分区,结合 sort by 使用。
注意,Hive 要求 DISTRIBUTE BY 语句要写在SORT BY 语句之前。
对于 distribute by 进行测试,一定要分配多 reduce 进行处理,否则无法看到 distribute by的效果。

先按照部门编号分区,再按照工资降序排序

set mapreduce.job.reduces=3;

insert overwrite local directory '/home/out/dis-by'
select * from emp distribute by deptno sort by sal desc;
Snipaste_2020-06-08_22-20-29.png

Cluster By

当 distribute by 和 sorts by 字段相同时,可以使用 cluster by 方式。

cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。
但是排序只能是升序排序,不能指定排序规则为 ASC 或者 DESC。

select * from emp cluster by deptno;
同上
select * from emp distribute by deptno sort by deptno;
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352