SQL操作指南九(窗口函数、GROUPING)

窗口函数

窗口函数也称为OLAP函数,全称Online Analytical Processing,意为对数据库进行实时分析处理 。

  • 窗口函数的语法
    语法:
<窗口函数> OVER ([PARTITION BY <列清单>]
                    ORDER BY <排序用清单列>)

其中重要的关键字是PARTITION和ORDER BY,理解这两个关键词的作用是帮助理解窗口函数的关键。

能够作为窗口函数使用的函数
窗口函数大致可以分为以下两种:
1.能够作为窗口函数的聚合函数(SUM、AVG、COUNT、MAX、MIN);
2.RANK、DENSE_RANK、ROW_NUMBER等专用窗口函数;

  • 语法的基本使用方法——使用RANK函数
    RANK函数如其名,是用来计算记录排序的函数。
--各类商品按照销售单价从低到高排序
SELECT shop_name,shop_type,sell_price,
RANK () OVER (PARTITION BY shop_type ORDER BY sell_price) AS ranking
FROM shop_list;
+-----------+-----------+------------+---------+
| shop_name | shop_type | sell_price | ranking |
+-----------+-----------+------------+---------+
| 砧板      | 厨房用具  |       2000 |       1 |
| 菜刀      | 厨房用具  |       6000 |       2 |
| 打孔器    | 工具      |        600 |       1 |
| 扳手      | 工具      |       3000 |       2 |
| T恤衫     | 衣服      |       2000 |       1 |
| 运动T恤   | 衣服      |       3000 |       2 |
+-----------+-----------+------------+---------+

PARTITION BY能够设定排序的对象范围,示例中我们按照商品的种类进行排序。
ORDER BY可以指定按照哪一列、哪一种顺序进行排列。为了按照销售单价的升序进行排列,我们指定了sell_price。
窗口函数中的ORDER BY可以通过在末尾加上关键字ASC/DESC来指定升序和降序。省略该关键字默认为升序。

  • 无须指定PARTITION BY
    使用窗口函数起到关键作用的是PARTITION BY和ORDER BY。其中,PARTITION BY不是必须的,不指定也是可以正常使用窗口的。
--不使用PARTITION BY指定列的情况
 SELECT shop_name,shop_type,sell_price,
 RANK () OVER (ORDER BY sell_price) AS ranking
 FROM shop_list;
+-----------+-----------+------------+---------+
| shop_name | shop_type | sell_price | ranking |
+-----------+-----------+------------+---------+
| 打孔器    | 工具      |        600 |       1 |
| T恤衫     | 衣服      |       2000 |       2 |
| 砧板      | 厨房用具  |       2000 |       2 |
| 运动T恤   | 衣服      |       3000 |       4 |
| 扳手      | 工具      |       3000 |       4 |
| 菜刀      | 厨房用具  |       6000 |       6 |
+-----------+-----------+------------+---------+

不使用PARTITION BY指定列,变成了全部商品的排序。

  • 专用窗口函数的种类
    如上面排序结果有两个第2位,因此下一位直接跳过第3位变成第4位。有些特殊情况下,可能需要1,2,3,4这种不需要跳过的排序,这时就需要RANK之外的函数来实现了。
    RANK函数:计算排序时,如果存在相同的位次的记录,则会跳过位次。
    DENSE_RANK函数:计算排序时,即使存在相同位次的记录,也不会跳过相同的位次。
    ROW_NUMBER函数:赋予唯一的连续位次。
--比较三种函数的区别
SELECT shop_name,shop_type,sell_price,
RANK () OVER (ORDER BY sell_price) AS ranking,
DENSE_RANK () OVER (ORDER BY sell_price) AS dense_ranking,
ROW_NUMBER () OVER (ORDER BY sell_price) AS row_num
FROM shop_list;
+-----------+-----------+------------+---------+---------------+---------+
| shop_name | shop_type | sell_price | ranking | dense_ranking | row_num |
+-----------+-----------+------------+---------+---------------+---------+
| 打孔器    | 工具      |        600 |       1 |             1 |       1 |
| T恤衫     | 衣服      |       2000 |       2 |             2 |       2 |
| 砧板      | 厨房用具  |       2000 |       2 |             2 |       3 |
| 运动T恤   | 衣服      |       3000 |       4 |             3 |       4 |
| 扳手      | 工具      |       3000 |       4 |             3 |       5 |
| 菜刀      | 厨房用具  |       6000 |       6 |             4 |       6 |
+-----------+-----------+------------+---------+---------------+---------+
  • 窗口函数的适用范围
    窗口函数只能在SELECT子句中使用,另外,这类函数不能在WHERE子句或者GROUP BY子句中使用。
    因为窗口函数的目的是排序,当我们使用WHERE去除了某些记录或者使用GROUP BY对记录进行聚合处理,排序的结果就是错误的,因此没有任何意义。
    所以,SELECT之外使用窗口函数是没有意义的。

  • 作为窗口函数使用聚合函数
    所有的聚合函数都能用在窗口函数,其语法和专用窗口函数完全相同。

--将SUM函数作为窗口函数
SELECT shop_id,shop_name,sell_price,
SUM(sell_price) OVER (ORDER BY shop_id)AS current_sum
FROM shop_list;
+---------+-----------+------------+-------------+
| shop_id | shop_name | sell_price | current_sum |
+---------+-----------+------------+-------------+
| 0001    | T恤衫     |       2000 | 2000        |
| 0002    | 打孔器    |        600 | 2600        |
| 0003    | 运动T恤   |       3000 | 5600        |
| 0004    | 菜刀      |       6000 | 11600       |
| 0005    | 砧板      |       2000 | 13600       |
| 0006    | 扳手      |       3000 | 16600       |
+---------+-----------+------------+-------------+
  • 计算移动平均
    窗口函数就是将表以窗口位单位进行分割,并在其中进行排序的函数。其实其中还包括在窗口中指定更加详细的统计范围的备选功能。该备选功能中的统计范围称为"框架"。
--指定"最靠近的3行"作为统计对象
SELECT shop_id,shop_name,sell_price,
    -> AVG(sell_price) OVER (ORDER BY shop_id ROWS 2 PRECEDING)AS moving_avg
    -> FROM shop_list;
+---------+-----------+------------+------------+
| shop_id | shop_name | sell_price | moving_avg |
+---------+-----------+------------+------------+
| 0001    | T恤衫     |       2000 | 2000.0000  |
| 0002    | 打孔器    |        600 | 1300.0000  |
| 0003    | 运动T恤   |       3000 | 1866.6667  |
| 0004    | 菜刀      |       6000 | 3200.0000  |
| 0005    | 砧板      |       2000 | 3666.6667  |
| 0006    | 扳手      |       3000 | 3666.6667  |
+---------+-----------+------------+------------+

从编号0003的数据开始数据有所不同,我们制定了框架——指定"最靠近的3行"作为统计对象,这里使用了ROWS(行)和PRECEDING(之前)两个关键字,将框架指定为"截止到之前~行",因此ROWS 2 PRECEDING的意思就是截止到之前2行。
由于框架是根据当前记录决定的,所有和固定的窗口不一样,其范围会随着当前的记录的变化而变化。
自身(当前记录)→之前1行的记录→之前2行的记录
这样的统计方法称为移动平均。由于这种方法在希望实时把握最近状态时非常方便,所以常常会应用在对股市趋势的实时跟踪中。
使用关键字FOLLOWING(之后)替换PRECEDING,就可以指定"截至到之后~行"作为框架了。

  • 两个ORDER BY
    窗口函数中的ORDER BY只是对排序的序号进行了排列,那么如何对排序做降序呢?
    很简单,在末尾加上ORDER BY子句就行了。
 SELECT shop_id,shop_name,sell_price,
 RANK() OVER (ORDER BY sell_price)AS ranking
 FROM shop_list
 ORDER BY ranking DESC;
+---------+-----------+------------+---------+
| shop_id | shop_name | sell_price | ranking |
+---------+-----------+------------+---------+
| 0004    | 菜刀      |       6000 |       6 |
| 0003    | 运动T恤   |       3000 |       4 |
| 0006    | 扳手      |       3000 |       4 |
| 0001    | T恤衫     |       2000 |       2 |
| 0005    | 砧板      |       2000 |       2 |
| 0002    | 打孔器    |        600 |       1 |
+---------+-----------+------------+---------+

GROUPING运算符

  • 同时计算出合计值
    我们在使用GROUP BY子句合计各个种类的总价的时候,会得到如下的表:
+-----------+-----------------+
| shop_type | sum(sell_price) |
+-----------+-----------------+
| 衣服      | 5000            |
| 工具      | 3600            |
| 厨房用具  | 8000            |
+-----------+-----------------+

但是如果想要将这几个种类合计到一起,那么就需要UNION ALL将他们连接到一起了。

SELECT '合计' AS shop_type,SUM(sell_price)
FROM shop_list
UNION ALL
SELECT shop_type,SUM(sell_price)
FROM shop_list
GROUP BY shop_type;
+-----------+-----------------+
| shop_type | sum(sell_price) |
+-----------+-----------------+
| 合计      | 16600           |
| 衣服      | 5000            |
| 工具      | 3600            |
| 厨房用具  | 8000            |
+-----------+-----------------+

这样虽然能计算出我们想要的结果,但是需要执行两次相同的SELECT语句,再将其结果连接,不仅繁琐,而且DBMS内部处理成本也非常高。因此,我们需要试着找出其他更高效的方法。

  • ROLLUP——同时计算出合计值和小计值
    为了满足类似上面的要求,标准SQL引入了GROUPING运算符,GROUPING运算符主要包括以下几种:
    1.ROLLUP
    2.CUBE
    3.GROUPING SETS

ROLLUP的用法

SELECT shop_type,SUM(sell_price) AS sum_price
FROM shop_list
GROUP BY shop_type WITH ROLLUP;
+-----------+-----------+
| shop_type | sum_price |
+-----------+-----------+
| 厨房用具  | 8000      |
| 工具      | 3600      |
| 衣服      | 5000      |
| NULL      | 16600     |
+-----------+-----------+

该运算符的作用,就是"一次计算出不同聚合键的组合结果",其计算结果默认使用NULL作为聚合键。

将"登记日期"添加到聚合键中

--不使用ROLLUP的结果
SELECT shop_type,register_date,SUM(sell_price) AS sum_price
FROM shop_list
GROUP BY shop_type,register_date;
+-----------+---------------+-----------+
| shop_type | register_date | sum_price |
+-----------+---------------+-----------+
| 衣服      | 2009-09-20    | 5000      |
| 工具      | 2009-09-20    | 3600      |
| 厨房用具  | 2009-09-20    | 8000      |
+-----------+---------------+-----------+
--使用ROLLUP的结果
SELECT shop_type,register_date,SUM(sell_price) AS sum_price
FROM shop_list
GROUP BY shop_type,register_date WITH ROLLUP;
+-----------+---------------+-----------+
| shop_type | register_date | sum_price |
+-----------+---------------+-----------+
| 厨房用具  | 2009-09-20    | 8000      |
| 厨房用具  | NULL          | 8000      |    ←小计
| 工具      | 2009-09-20    | 3600      |
| 工具      | NULL          | 3600      |
| 衣服      | 2009-09-20    | 5000      |
| 衣服      | NULL          | 5000      |
| NULL      | NULL          | 16600     | ←合计
+-----------+---------------+-----------+

将两次结果做比较之后,发现使用ROLLUP多出了对每个类别的小计(使用了未登记日期作为聚合键)。

  • GROUPING函数——让NULL更加容易分辨
    在使用ROLLUP的时候,出现了几处NULL,当日期本身为NULL时,那么NULL代表的意义就不太明确了。为了避免混淆,SQL提供了一个用来判断超级分组记录为NULL的特定函数——GROUPING函数。该函数在其参数列的值为超级分组记录所产生的NULL时返回1,其他情况返回0。
 SELECT GROUPING(shop_type)AS shop_type,GROUPING(register_date)AS  register_date,SUM(sell_price)AS sum_price
FROM shop_list
GROUP BY shop_type,register_date WITH ROLLUP;
+-----------+---------------+-----------+
| shop_type | register_date | sum_price |
+-----------+---------------+-----------+
|         0 |             0 | 8000      |
|         0 |             1 | 8000      |
|         0 |             0 | 3600      |
|         0 |             1 | 3600      |
|         0 |             0 | 5000      |
|         0 |             1 | 5000      |
|         1 |             1 | 16600     |   ←超级分组产生的NULL返回1
+-----------+---------------+-----------+

该表对应上面ROLLUP产生的表,查找NULL的位置就能知道是不是超级分组产生的了。

使用GROUPING函数还能在超级分组记录的键中插入字符串。也就是说,当GROUPING函数返回值为1时,指定”合计“和”小计“等字符串,其他情况返回正常的列的值。

SELECT CASE WHEN GROUPING(shop_type)=1
            THEN '商品种类合计'
            ELSE shop_type END AS shop_type,
            CASE WHEN GROUPING(register_date)=1
            THEN '登记日期合计'
            ELSE register_date END AS register_date,
            SUM(sell_price) AS sum_price
FROM shop_list
GROUP BY shop_type,register_date WITH ROLLUP;
+--------------+---------------+-----------+
| shop_type    | register_date | sum_price |
+--------------+---------------+-----------+
| 厨房用具     | 2009-09-20     | 8000      |
| 厨房用具     | 登记日期合计    | 8000      |
| 工具         | 2009-09-20    | 3600      |
| 工具         | 登记日期合计   | 3600      |
| 衣服         | 2009-09-20    | 5000      |
| 衣服         | 登记日期合计   | 5000      |
| 商品种类合计 | 登记日期合计    | 16600     |
+--------------+---------------+-----------+
  • CUBE——用数据搭积木
    CUBE是立方体的意思,和ROLLUP一样,生动地说明了其作用。CUBE和ROLLUP的语法一样,只要将ROLLUP用CUBE代替就行了。

  • GROUPING SETS——取得期望的积木
    该运算符可以从ROLLUP和CUBE结果中取得部分记录(即GROUPING返回值为1的数据)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,470评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,393评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,577评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,176评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,189评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,155评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,041评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,903评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,319评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,539评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,703评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,417评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,013评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,664评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,818评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,711评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,601评论 2 353

推荐阅读更多精彩内容