1、背景表结构
在讲解中我们需要贯串一个 例子,所以需要设计一个情景,对应 还要有一个表结构和填充数据。如下:有3个字段,分别为personId标识某一个人,company标识一家公司名称,money标识该公司每年盈利收入(单位:万元人民币)
personId | company | money |
---|---|---|
p1 | 公司1 | 100 |
p2 | 公司2 | 200 |
p1 | 公司3 | 150 |
p3 | 公司4 | 300 |
company_info.txt
p1 公司1 100
p2 公司2 200
p1 公司3 150
p3 公司4 300
创建表
hive> create table company_info(
personId string,
company string,
money float
)row format delimited fields terminated by "\t"
导入数据
hive> load data local inpath “company_info.txt” into table company_info;
2、order by
hive中的order by语句会对查询结果做一次全局排序,即,所有的mapper产生的结果都会交给一个reducer去处理,无论数据量大小,job任务只会启动一个reducer,如果数据量巨大,则会耗费大量的时间。
尖叫提示:如果在严格模式下,order by需要指定limit数据条数,不然数据量巨大的情况下会造成崩溃无输出结果。涉及属性:set hive.mapred.mode=nonstrict/strict
例如:按照money排序的例子
hive> select * from company_info order by money desc;
3、sort by
hive中的sort by语句会对每一块局部数据进行局部排序,即,每一个reducer处理的数据都是有序的,但是不能保证全局有序。
4、distribute by
hive中(distribute by + “表中字段”)关键字控制map输出结果的分发,相同字段的map输出会发到一个reduce节点去处理。sort by为每一个reducer产生一个排序文件,他俩一般情况下会结合使用。
hive中的distribute by一般要和sort by一起使用,即将某一块数据归给(distribute by)某一个reducer处理,然后在指定的reducer中进行sort by排序。
尖叫提示:distribute by必须写在sort by之前,涉及属性mapreduce.job.reduces,hive.exec.reducers.bytes.per.reducer
例如:不同的人(personId)分为不同的组,每组按照money排序。
hive> select * from company_info distribute by personId sort by personId, money desc;
5、cluster by
hive中的cluster by在distribute by和sort by排序字段一致的情况下是等价的。同时,cluster by指定的列只能是降序,即默认的descend,而不能是ascend。
简单说:cluster by 相当于 distribute by 和sort by 的结合,默认只能是升序
例如:写一个等价于distribute by 与sort by的例子
hive> select * from company_info distribute by personId sort by personId;
等价于
hive> select * from compnay_info cluster by personId;