共计 2834 个字符,预计需要花费 8 分钟才能阅读完成。
作者:杨涛涛
资深数据库专家,专研 MySQL 十余年。善于 MySQL、PostgreSQL、MongoDB 等开源数据库相干的备份复原、SQL 调优、监控运维、高可用架构设计等。目前任职于爱可生,为各大运营商及银行金融企业提供 MySQL 相干技术支持、MySQL 相干课程培训等工作。
本文起源:原创投稿
* 爱可生开源社区出品,原创内容未经受权不得随便应用,转载请分割小编并注明起源。
记起来有一次去讲 MySQL 8.0 开发相干个性,在 QA 环节,有人对 MySQL 的几个十分用窗口函数有些困惑,过后现场给了一些示范并且做了具体的解答,明天我用几个简略例子分享下具体的用法。
有困惑的是这四个窗口函数(其实是因为我 PPT 里仅写了这四个窗口函数):frist_value、last_value、nth_value、ntile。
谈到这四个窗口函数的具体用法,特地是前两个,得先相熟 MySQL 窗口函数的框架用法。这里提到的窗口函数框架,其实就是定义一个分组窗口的边界,边界能够是具体的行号,也能够是具体的行内容,以这个边界为终点或者起点,来展示分组内的过滤数据。详情见我之前的发稿:https://opensource.actionsky….
接下来咱们来看看这四个窗口函数如何应用。
-
first_value:用来返回一个分组窗口里的第一行记录,也即排名第一的那行记录。
咱们用表 t1 来示范,这张表里只有 12 行记录,其中每 6 行记录依照字段 r1 来分组。
localhost:ytt_new>select id,r1,r2 from t1;
+----+------+------+
| id | r1 | r2 |
+----+------+------+
| 1 | 10 | 20 |
| 2 | 10 | 30 |
| 3 | 10 | 40 |
| 4 | 10 | 50 |
| 5 | 10 | 2 |
| 6 | 10 | 3 |
| 7 | 11 | 100 |
| 8 | 11 | 101 |
| 9 | 11 | 1 |
| 10 | 11 | 3 |
| 11 | 11 | 10 |
| 12 | 11 | 20 |
+----+------+------+
12 rows in set (0.00 sec)
比方想拿到每个分组里的第一名(升序),能够用 row_number() 函数,咱们来回顾下:
localhost:ytt_new>select r1,r2 from (select r1,r2,row_number() over(partition by r1 order by r2) as rn from t1) T where T.rn = 1;
+------+------+
| r1 | r2 |
+------+------+
| 10 | 2 |
| 11 | 1 |
+------+------+
2 rows in set (0.00 sec)
此时如果用 first_value 来实现,写法会更加简略:
localhost:ytt_new>select distinct r1,first_value(r2) over(partition by r1 order by r2) as first_r2 from t1;
+------+----------+
| r1 | first_r2 |
+------+----------+
| 10 | 2 |
| 11 | 1 |
+------+----------+
2 rows in set (0.00 sec)
-
last_value:和 first_value 相同,用来返回分组窗口里的最初一行记录,也即倒数第一的那行记录。
比方我取出对应分组内最初一行 r2 的值,如果用 last_value 函数,十分好实现,可后果和预期不统一:返回与字段 r2 自身等值的记录。
localhost:ytt_new>select distinct r1,last_value(r2) over(partition by r1 order by r2) 'last_r2' from t1; +------+---------+
| r1 | last_r2 |
+------+---------+
| 10 | 2 |
| 10 | 3 |
| 10 | 20 |
| 10 | 30 |
| 10 | 40 |
| 10 | 50 |
| 11 | 1 |
| 11 | 3 |
| 11 | 10 |
| 11 | 20 |
| 11 | 100 |
| 11 | 101 |
+------+---------+
12 rows in set (0.01 sec)
究其原因是函数 last_value 的默认框架是 rows between unbounded preceding and current row。这里默认框架意思是:限度窗口函数的取值边界为以后行和下限无穷大,所以对应的值就是以后行本人。
那正确的框架应该是什么样呢?正确的框架应该是让边界锁定整个分组的高低边缘,也即整个分组的下限与上限之间。所以正确的写法如下:
localhost:ytt_new>select distinct r1,last_value(r2) over(partition by r1 order by r2 RANGE BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) as 'last_r2' from t1;
+------+---------+
| r1 | last_r2 |
+------+---------+
| 10 | 50 |
| 11 | 101 |
+------+---------+
2 rows in set (0.00 sec)
-
nth_value:用来返回分组内指定行的记录。
比方用 nth_value 函数来求分组内排名第一的记录:
localhost:ytt_new>select * from (select distinct r1,nth_value(r2,1) over(partition by r1 order by r2) 'first_r2' from t1) T where T.first_r2 is not null;
+------+----------+
| r1 | first_r2 |
+------+----------+
| 10 | 2 |
| 11 | 1 |
+------+----------+
2 rows in set (0.00 sec)
这个函数的性能根本和函数 row_number 统一。不同的是 row_number 用来展现排名,而 nth_value 用来输出排名。
-
ntile:用来在分组内持续二次分组。
比方我想取出分组内排名前 50% 的记录,能够这样写:
localhost:ytt_new>select id,r1,r2 from (select id,r1,r2, ntile(2) over(partition by r1 order by r2) 'ntile' from t1) T where T.ntile=1;
+----+------+------+
| id | r1 | r2 |
+----+------+------+
| 5 | 10 | 2 |
| 6 | 10 | 3 |
| 1 | 10 | 20 |
| 9 | 11 | 1 |
| 10 | 11 | 3 |
| 11 | 11 | 10 |
+----+------+------+
6 rows in set (0.00 sec)
这四个窗口函数,特地是 last_value 须要留神。不过在大多数场景下,记住几个罕用的窗口函数即可,比方 row_number(),rank() 等等。