13.1 数据分组
在第12章中,除了使用聚集函数对行进行数据汇总之外,还可以使用GROUP BY和HAVING子句来进行分组汇总:
SELECT vend_id, COUNT(*) AS num_prods
FROM products
GROUP BY vend_id;
但是在使用GROUP BY子句之前,需要注意一下以下事项:
- 在建立分组时,指定的所有列都一起计算 (所以不能从个别的列取回数据)。
- GROUP BY 子句中列出的每个列都必须是检索列或有效的表达式 (但不能是聚集函数)。如果在 SELECT 中使用表达式, 则必须在GROUP BY子句中指定相同的表达式,不能使用别名
- SELECT语句中的每个列都必须在GROUP BY子句中给出。
- 如果分组列中具有NULL值,则NULL将作为一个分组返回。如果列中有多行NULL值,它们将分为一组。
- GROUP BY子句必须出现在WHERE子句之后,ORDER BY子句之前。
总的来说,GROUP BY也会忽略NULL值,但是如果想查看所有列的值进行分组(包括空值),那么在进行分组操作时需要在后面加上WITH ROLLUP关键字
:
SELECT vend_id, COUNT(*) AS num_prods
FROM products
GROUP BY vend_id WITH ROLLUP;
13.2 过滤分组
除了能用GROUP BY分组数据外,MySQL还允许过滤分组,规定包括 哪些分组,排除哪些分组。也就是说对分组指定筛选条件,类似于WHERE子句;
但是,WHERE子句过滤的是行而不时分组,其没有分组的概念。因此这是就需要使用到HAVING子句来代替WHERE完成筛选条件的分组:
SELECT cust_id, COUNT(*) AS orders
FROM orders
GROUP BY cust_id
HAVING COUNT(*) >= 2;
HAVING与WHERE
HAVING子句的功能与WHERE子句基本类似,二者的区别就在于:
- HAVING子句用于过滤分组
- WHERE子句用于过滤行
虽然这二者作用的方向不同,但是也可以同时使用:
SELECT vend_id, COUNT(*) AS num_prods
FROM products
WHERE prod_price >= 10
GROUP BY vend_id
HAVING COUNT(*) >= 2;
- 先通过WHERE筛选出prod_price大于等于10的行,然后根据vend_id进行分组汇总后,筛选出num_prods大于等于2的行
13.3 排序
13.3.1 分组排序
用GROUP BY分组的数据是以分组顺序输出的,但情况并不总是这样,它并不是SQL规范所要求的;并且如果希望能对分组的顺序进行排序时,GROUP BY函数可能就无能为力,这时就需要用到ORDER BY子句:
SELECT order_num,
SUM(quantity*item_price) AS order_total
FROM orderitems
GROUP BY order_num
HAVING SUM(quantity*item_price) >= 50
ORDER BY order_total;
- 一般在使用GROUP BY子句时,应该也给出ORDER BY子句。这是保证数据正确排序的唯一方法。千万不要仅依赖GROUP BY排序数据。
13.3.2 SELECT子句顺序
随着学习的深入,SELECT语句附加的子句会越来越多,但是大体需要按照以下步骤来进行:
1. SELECT
2. FROM
3. WHERE
4. GROUP BY
5. HAVING
6. ORDER BY
7. LIMIT