1.4.3.7 Hive的查询操作

总目录:https://www.jianshu.com/p/e406a9bc93a9

Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd

SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list]]
[LIMIT number]

基础查询

全局查询

全表查询

select * from emp;
使用*号来表示全部列。

全表查询

指定列查询

select ename,job from emp;

指定列查询

注意事项

(1)SQL 语言大小写不敏感。
(2)SQL 可以写在一行或者多行
(3)关键字不能被缩写也不能分行
(4)各子句一般要分行写。
(5)使用缩进提高语句的可读性。

别名

select empno as id,ename as name from emp;

别名

使用关键字 as紧跟需要别名的列。

limit语句

LIMIT 子句用于限制返回的行数。
select * from emp limit 5;

limit

常用函数

  • count


    例子
  • max


    例子
  • min


    例子
  • sum


    例子
  • avg


    例子

运算符

算术运算符

常用算术运算符一览:

运算符 描述
A+B A和B相加
A-B A和B相加
A*B A和B相加
A/B A和B相加
A%B A和B相加
A&B A和B相加
A丨B A和B相加
A^B A和B相加
~B A和B相加

select ename,sal*2 as sal from emp;

将所有员工工资翻倍

比较运算符

常用比较运算符一览:

运算符 支持的数据类型 描述
A=B 基础数据类型 如果 A 等于 B 则返回 TRUE,反之返回 FALSE
A<=>B 基础数据类型 如果 A 和 B 都为 NULL,则返回 TRUE,其他的和等号(=)操作符的结果一致,如果任一为 NULL 则结果为 NULL
A!=B,A<>B 基础数据类型 A 或者 B 为 NULL 则返回 NULL;如果 A 不等于 B,则返回 TRUE,反之返回 FALSE
A<B 基础数据类型 A 或者 B 为 NULL,则返回 NULL;如果 A 小于 B,则返回 TRUE,反之返回 FALSE
A>B 基础数据类型 A 或者 B 为 NULL,则返回 NULL;如果 A 小于等于 B,则返回 TRUE,反之返回 FALSE
A<=B 基础数据类型 A 或者 B 为 NULL,则返回 NULL;如果 A 大于 B,则返回 TRUE,反之返回 FALSE
A>=B 基础数据类型 A 或者 B 为 NULL,则返回 NULL;如果 A 大于等于 B,则返回 TRUE,反之返回 FALSE
A [NOT] BETWEEN B AND C 基础数据类型 如果 A,B 或者 C 任一为 NULL,则结果为 NULL。如果 A 的值大于等于 B 而且小于或等于 C,则结果为 TRUE,反之为 FALSE。如果使用 NOT 关键字则可达到相反的效果
A IS NULL 所有数据类型 如果 A 等于 NULL,则返回 TRUE,反之返回 FALSE
A IS NOT NULL 所有数据类型 如果 A 不等于 NULL,则返回 TRUE,反之返回 FALSE
IN(数值 1, 数值 2) 所有数据类型 使用 IN 运算显示列表中的值。
A [NOT] LIKE B STRING类型 B 是一个 SQL 下的简单正则表达式,如果 A 与其匹配的话,则返回 TRUE;反之返回 FALSE。如果使用 NOT 关键字则可达到相反的效果。
A RLIKE B, A REGEXP B STRING类型 B 是一个使用jdk正则接口实现的正则表达式,如果 A 与其匹配,则返回 TRUE;反之返回FALSE。
  • 查询出薪水等于 5000 的所有员工
    select * from emp where sal =5000;
  • 查询工资在 500 到 1000 的员工信息
    select * from emp where sal between 500 and 1000;
  • 查询 comm 为空的所有员工信息
    select * from emp where comm is null;
  • 查询工资是 1500 或 5000 的员工信息
    select * from emp where sal IN (1500, 5000);
  • 查找以 2 开头薪水的员工信息
    select * from emp where sal LIKE '2%';
  • 查找薪水中含有 2 的员工信息
    select * from emp where sal RLIKE '[2]';

逻辑运算符

常用逻辑运算符一览:

运算符 描述
AND
OR
NOT
  • 查询薪水大于 1000,部门是 30
    select * from emp where sal>1000 and deptno=30;
  • 查询薪水大于 1000,或者部门是 30
    select * from emp where sal>1000 or deptno=30;
  • 查询除了 20 部门和 30 部门以外的员工信息
    select * from emp where deptno not IN(30, 20);

join操作

等值Join

Hive 支持通常的 SQL JOIN 语句,但是只支持等值连接,不支持非等值连接。

  • 根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称
    select e.empno, e.ename, d.deptno, d.dname from emp e join dept d on e.deptno = d.deptno;

内连接

内连接:只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。
select e.empno, e.ename, d.deptno from emp e join dept d on e.deptno = d.deptno;

左外连接

左外连接:JOIN 操作符左边表中符合 WHERE 子句的所有记录将会被返回。
select e.empno, e.ename, d.deptno from emp e left join dept d on e.deptno = d.deptno;

右外连接

右外连接:JOIN 操作符右边表中符合 WHERE 子句的所有记录将会被返回。
select e.empno, e.ename, d.deptno from emp e right join dept d on e.deptno = d.deptno;

满外连接

满外连接:将会返回所有表中符合 WHERE 语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话,那么就使用 NULL 值替代。
select e.empno, e.ename, d.deptno from emp e full join dept d on e.deptno = d.deptno;

多表连接

注意:连接 n 个表,至少需要 n-1 个连接条件。例如:连接三个表,至少需要两个连接条件。
SELECT a.name, b.age, c.gender FROM a1 a JOIN b1 b ON b.deptno = a.deptno JOIN c1 c ON c.loc = c.loc;

分组查询

Group By 语句

GROUP BY 语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。

  • 计算 emp 表每个部门的平均工资
    select t.deptno, avg(t.sal) avg_sal from emp t group by t.deptno;

  • 计算 emp 每个部门中每个岗位的最高薪水
    select t.deptno, t.job, max(t.sal) max_sal from emp t group by t.deptno, t.job;

Having语句

having和where的不同点:
(1)where 针对表中的列发挥作用,查询数据;having 针对查询结果中的列发挥作用,
筛选数据。
(2)where 后面不能写聚合函数,而 having 后面可以使用聚合函数。
(3)having 只用于 group by 分组统计语句。

  • 求每个部门的平均薪水大于 2000 的部门
    select deptno, avg(sal) avg_sal from emp group by deptno having avg_sal > 2000;

排序

ORDER BY语句

  • 查询员工信息按工资升序排列
    select * from emp order by sal;
  • 查询员工信息按工资降序排列
    select * from emp order by sal desc;

多列排序

select ename, deptno, sal from emp order by deptno, sal ;

Sort By语句

Sort By:每个 Reducer 内部进行排序,对全局结果集来说不是排序。
首先我们要设置一下reduce的数量。
set mapreduce.job.reduces=3;
当然,我们也可以查看当前设置的reduce数量。
set mapreduce.job.reduces;

随便查询一下
select * from emp sort by empno desc;


reduce是分了三个阶段。


截图的第一行中,map数量1,reduce数量3。

Distribute By语句

Distribute By:类似 MR 中 partition,进行分区,结合 sort by 使用。

  • 先按照部门编号分区,再按照员工编号降序排序。
    select * from emp distribute by deptno sort by empno desc;

Cluster By语句

当 distribute by 和 sorts by 字段相同时,可以使用 cluster by 方式。
cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。但是排序只能是升序排序,不能指定排序规则为 ASC 或者 DESC。
比如下面两种写法是等价的。
select * from emp cluster by deptno;
select * from emp distribute by deptno sort by deptno;

分桶

分桶表

  • 创建分桶表
create table stu_buck(id int, name string)
clustered by(id) into 4 buckets
row format delimited fields terminated by '\t';
  • 创建个普通表
create table stu(id int, name string)
row format delimited fields terminated by '\t';
  • 导入数据
load data local inpath '/usr/hdk/student.txt' into table stu;

数据集关注微信公众号hx_bigdata,回复1437.

  • 设置两个属性
set hive.enforce.bucketing=true;
set mapreduce.job.reduces=-1;
  • 子查询导入数据
insert into table stu_buck select id, name from stu;
四个桶

抽样查询

对于非常大的数据集,有时用户需要使用的是一个具有代表性的查询结果而不是全部结果。Hive 可以通过对表进行抽样来满足这个需求。
语法:TABLESAMPLE(BUCKET x OUT OF y)
y 必须是 table 总 bucket 数的倍数或者因子。hive 根据 y 的大小,决定抽样的比例。
例如,table 总共分了 4 份,当 y=2 时,抽取(4/2=)2 个 bucket 的数据,当 y=8 时,抽取(4/8=)1/2
个 bucket 的数据。
x 表示从哪个 bucket 开始抽取,如果需要取多个分区,以后的分区号为当前分区号加上y。
例如,table 总 bucket 数为 4,tablesample(bucket 1 out of 2),表示总共抽取(4/2=)2 个bucket 的数据,抽取第 1(x)个和第 3(x+y)个 bucket 的数据。

  • 抽取一个桶
    select * from stu_buck tablesample(bucket 1 out of 4 on id);
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,104评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,816评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,697评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,836评论 1 298
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,851评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,441评论 1 310
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,992评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,899评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,457评论 1 318
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,529评论 3 341
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,664评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,346评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,025评论 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,511评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,611评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,081评论 3 377
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,675评论 2 359

推荐阅读更多精彩内容

  • 引出 •请思考如下问题? –查询所有员工的每个月工资总和,平均工资? –查询工资最高和最低的工资是多少? –查询公...
    C_cole阅读 7,293评论 0 3
  • 1. select * from emp; 2. select empno, ename, job from em...
    海纳百川_4d26阅读 1,913评论 0 4
  • 查询是数据的一个重要操作。用户发送查询请求,经编译软件变异成二进制文件供服务器查询,后返回查询结果集给用户,查询会...
    产品小正阅读 1,392评论 0 2
  • ORACLE自学教程 --create tabletestone ( id number, --序号usernam...
    落叶寂聊阅读 1,086评论 0 0
  • ​最近学区房的话题非常非常热,大多数人都觉得自己够一够,还是可以的,有过希望,只是都错过了。 比如这样的思绪总会冒...
    教在美国阅读 354评论 0 1