名词介绍
1、count
1、count()
count() 统计所有的行数,包含为Null的行
hive> select count(*) from student;
OK
10
2、count(1)
count(1)或者count(任意数字) 它的结果和count(*) 一样
即统计所有的行数,包含为Null的行
hive> select count(1) from student;
OK
10
3、count(column)
count(column) 返回不包含null的行数
hive> select count(fenshu) from student;
OK
8
4、count(expression)
count(expression) 返回不包含null的行数 这个和count(column) 类似,count(expression) 中的表达式也相当于生成一个默认的列
2、distinct
1、去重,如果是单列,就是单列去重 如果是多列 相当于是多列为一组进行去重
2、distinct 要放到最前面 即select distinct column。。。 而不能是 select column1,distinct column2。。。
3、join
1、笛卡尔积
笛卡尔积在sql中实现的方式是交叉连接,是所有可能的有序对组成的集合,表示两个表中每一行数据任意组合,比如两个表 select * from tableA tableB 假如tableA和tableB各有6条数据,则有36种可能
在实际应用中笛卡尔积没有多大用处,只有在关联时加上限制条件,才能发挥它的作用
2、全连接
FULL OUTER JOIN
全连接查询能返回左右表里的所有记录,其中左右表里能关联起来的记录被连接后返回。
示例:
hive> select * from test1;
OK
1 zeng
2 zhou
3 wang
hive> select * from test2;
OK
1 18
2 17
4 19
5 20
hive> select test1.id,test1.name,test2.id,test2.age from test1 FULL OUTER JOIN test2 on test1.id=test2.id;
OK
1 zeng 1 18
2 zhou 2 17
3 wang NULL NULL
NULL NULL 4 19
NULL NULL 5 20
4、order by
order by 即排序 默认是升序 ASC 若想要降序排列 则DESC
5、group by
1、group by 和聚合函数连用 聚合函数包括sum() avg() count() 等 聚合函数计算的是分组后组内的值
2、having用在group by之后,对group by分组后的数据进行筛选
having后面可以使用聚合函数
3、特殊的 比如sql中没有group by 但是用了聚合函数,比如select count(*) from student相当于 group by null,即对什么也不分组,对整表进行聚合
连用的情况
1、join 和 where
where在join之后
left jion时,on和where条件的区别如下:
1、 on条件是在生成临时表时使用的条件,它不管on中的条件是否为真,都会返回左边表中的记录。
2、where条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有left join的含义(必须返回左边表的记录)了,条件不为真的就全部过滤掉。
参考资料:https://www.cnblogs.com/jessy/p/3525419.html
2、group by 和where连用
group by 和where连用的时候,where需要放到group by前面,对之前的结果集先进行删选,where后面不可以使用聚合函数
3、order by和group by连用
order by 和group by连用的时候,order by需要放到group by后面 而且order by是sql中最后执行的
order by的字段需要是group by中的字段或者是聚合函数转换的别名
注意点
1、join 后面的关联条件为空字符串的问题
结论 :
当关联条件两边相同数据多的时候 数据会变多 为 两边空字符串(或者别的数据)的数量相乘 所以当两边空字符串数据量很大的话 得到的数据量将是灾难性的
关联两边为NULL的话 对其没有影响