MySQL从8.0开始支持窗口函数。也就是分析函数
名称 | 参数 | 描述 |
---|---|---|
ROW_NUMBER() | 否 | 当前行在其分组内的序号。不管其排序结果中是否出现重复值.其排序结果都为;1.2.3.4.5。 |
DENSE_RANK() | 否 | 不间断的组内排序。使用这个函数时,可以出现1.1.2.2这种形式的分组。例如:计算排名时相同名称并列排行 |
RANK() | 否 | 间断的组内排序。其排序结果可能出现如下结果:1.1.3.4.4.6 |
PERCENT_RANK() | 否 | 累计百分比。该函数的计算结果为:小于该条记录值的所有记录的行数/该分组的总行数-1.所以该记录的返回值为[0.1] |
CUME_DIST() | 否 | 累计分布值。即分组值小于等于当前值的行数与分组总行数的比值。取值范围为(0.1] |
LAG | 是:lag(expr.[N.[default] | 从当前行开始往前取第N行.如果N缺失.默认为1。如果不存在前一行.则默认返回default。default默认值为NULL |
LEAD() | 是:lead(expr.[N.[default]l) | 从当前行开始往后取第N行。函数功能与lag0)相反.其余与lag0相同。 |
FIRST_VALUE() | 是;first_value(expr) | 返回分组内截止当前行的第一个值。 |
LAST_VALUE() | 是:last_value(expr) | 返回分组内截止当前行的最后一个值。 |
NTH_VALUE() | 是:nth_value(expr.N) | 返回分组内截止当前行的第N行。与first_valueMlast_valuelnth_value函数功能相似.只是返回分组内截止当前行的不同行号的数据。 |
NTILE() | 是:ntile(N) | 返回当前行在分组内的分桶号。在计算时要先将该分组内的所有数据划分成N个桶,之后返回每个记录所在的分桶号。返回范围从1到N。 |
序号函数:ROW_NUMBER()、RANK()、DENSE_RANK()
分布函数:PERCENT_RANK()、CUME_DIST()
前后函数:LAG()、LEAD()
头尾函数:FIRST_VALUE()、LAST_VALUE()
其它函数:NTH_VALUE()、NTILE()
例子:
首先有一个表字段:id score(分数)user_id
1.序号函数:ROW_NUMBER()、RANK()、DENSE_RANK()
用途:显示分区中的当前行号,对查询结果进行排序.
ROW_NUMBER():顺序排序——1、2、3 RANK():并列排序,跳过重复序号——1、1、3 DENSE_RANK():并列排序,不跳过重复序号——1、1、2
执行sql:
SELECT score,
ROW_NUMBER() over(ORDER BY score desc) as 'rowNum',
DENSE_RANK() over(ORDER BY score desc) as 'denseRank',
RANK() over(ORDER BY score desc) as 'rank'
FROM test_score
2.分布函数:PERCENT_RANK()、CUME_DIST()
用途:每行按照公式(rank-1) / (rows-1)进行计算。其中,rank为RANK()函数产生的序号,rows为当前窗口的记录总行数
3.前后函数:LAG()、LEAD()
LAG和LEAD分析函数可以在同一次查询中取出同一字段的前N行的数据(LAG)和后N行的数据(LEAD)作为独立的列
在实际应用当中,若要用到取今天和昨天的某字段差值时,LAG和LEAD函数的应用就显得尤为重要。当然,这种操作可以用表的自连接实现,但是LAG和LEAD与LEFT JOIN、RIGHT JOIN等自连接相比,效率更高,SQL更简洁。下面我就对这两个函数做一个简单的介绍。
函数语法如下:
lag(exp_str,offset,defval) OVER(PARTITION BY …ORDER BY …)
lead(exp_str,offset,defval) OVER(PARTITION BY …ORDER BY …)
参数说明:
exp_str是字段名
offset是偏移量,即是上1个或上N个的值,假设当前行在表中排在第10行,则offset 为3,则表示我们所要找的数据行就是表中的第7行(即10-3=7)。
defval默认值,当两个函数取上N/下N个值,当在表中从当前行位置向前数N行已经超出了表的范围时,LAG()函数将defval这个参数值作为函数的返回值,若没有指定默认值,则返回NULL,那么在数学运算中,总要给一个默认值才不会出错。
执行sql:
SELECT score,
LAG(score,1,0) over(ORDER BY score desc) as 'lag',
LEAD(score,1,0) over(ORDER BY score desc) as 'lead'
FROM test_score
以第一行为例:4.0上一条记录(lag)是没有的,所有有赋予默认值0,4.0的下一条记录(lead)还是4.0,可以通过偏移量调整上下N条记录
注意:这里是序号的上一条或下一条
4.头尾函数:FIRST_VALUE(expr)、LAST_VALUE(expr)
用途:返回第一个(FIRST_VALUE(expr))或最后一个(LAST_VALUE(expr))expr的值
执行sql:
SELECT id, score,user_id,
FIRST_VALUE(score) over(PARTITION by user_id ORDER BY score desc) as 'FIRST',
LAST_VALUE(score) over(PARTITION by user_id ORDER BY score desc) as 'LAST'
FROM test_score
FIRST_VALUE()的结果容易理解,直接在结果的所有行记录中输出同一个满足条件的首个记录;
LAST_VALUE()默认统计范围是 rows between unbounded preceding and current row,也就是取当前行数据与当前行之前的数据的比较。
那么如果我们直接在每行数据中显示最后的那个数据,需在order by 条件的后面加上语句:rows between unbounded preceding and unbounded following , 也就是前面无界和后面无界之间的行比较。
加上语句,执行sql:
SELECT id, score,user_id,
FIRST_VALUE(score) over(PARTITION by user_id ORDER BY score desc) as 'FIRST',
LAST_VALUE(score) over(PARTITION by user_id ORDER BY score desc rows between unbounded preceding and unbounded following) as 'LAST'
FROM test_score
结果:
简单理解就是,取最大的还是最小的结合ORDER BY使用,或者取第一个还是或者最后一个
参考:https://baijiahao.baidu.com/s?id=1728966619393719484&wfr=spider&for=pc