关于java:MySQL-跨库分页-分表分页-跨库分页为什么这么难

作者：菩提树下的杨过

出处：https://www.cnblogs.com/yjmyz...

当业务数据达到一定量级(比方：mysql单表记录量>1千万)后，通常会思考“分库分表”将数据扩散到不同的库或表中，这样能够大大提高读/写性能。然而问题来了，对于 select * from table limit offset , pagesize 这种分页形式，原来一条语句就能够简略搞定的事件会变得很简单，本文将与大家一起探讨分库分表后"分页"面临的新问题。

一、分表对分页的影响

比方有一张表，外面有8条记录(为简略起见，假如该表上只有1个自增ID），数学上能够形象成1个(有序)数列(注：为不便探讨，不加非凡阐明的状况下，文本中数列的程序，均指升序)

(1，2，3，4，5，6，7，8)

如果要取出下面红色标识的2,3这二条记录，limit 1,2 就行了。

当初如果分成2张表（即：原来的数列，拆分成2个非空子数列），一般来讲，有二种罕用分法：

1.1 分段法（比方：有工夫属性的数据，相似订单这种，能够按下单工夫拆分，每个月1张表）

(1，2，3，4)

(5，6，7，8)

沿用之前的limit x,y的思路，每个分表上 limit 1,2，会失去如下2个子数列：

(2，3)

(6，7)

而后在内存中合并排序，再取前2条 (2，3，6，7) => (2，3) ，貌似看上去也合乎预期（这个思路也称为归并），但这只是假象。当要取的分页数据落在不同的子数列上时，就能发现问题：

(1，2，3，4，5，6，7，8) 比方，咱们要从4个地位开始，间断取2个元素，即: limit 3,2

(1，2，3，4) => limit 3,2 =>(4)

(5，6，7，8) => limit 3,2 =>(8)

最初合并进去的后果是(4，8) 与正确后果 (4，5)相比，显然不对。

1.2 模余均摊法（比方：字段值对2取模求余数，依据余数决定分到哪个表，该办法也简称为取余法）

(1，3，5，7)

(2，4，6，8)

归并排序的思路在分段法上行不通，对于取模均摊同样也不行，仍以 limit 1,2为例，原始序列取出来的后果是(2，3)，如果用归并的思路：

(1，3，5，7)=> limit 1,2 =>(3 ,5)

(2，4，6，8)=> limit 1,2 =>(4, 6)

内存合并排序后，取前2个，最终后果为(3 , 4)

论断：不论分库分表采纳什么分法，简略归并的思路，都无奈正确解决分页问题。

二、全局法(limit x+y)

反思一下方才的归并思路，实质上咱们在每个子数列（即：分表）上limit x,y 时，取出来的数据就有可能曾经产生缺失了。网上有一篇广为流转的文章"业界难题-跨库分页”，作者在文中提出了一个计划：把范畴扩充，分表sql上的limit x,y 变成 limit 0, x+y ，这样改写后，相当于分表中把"每页最初一条数据"之前的所有数据全都取出来了（当然：这外面可能会有不须要的多余数据)，而后内存中合并在一起，再取x偏移量后的y条数据。

用后面的例子验证一下：

原序列：(1，2，3，4，5，6，7，8)，须要取出limit 1,2 ，即：(2，3)

2.1 按分段法拆成2段：

(1 , 2 , 3 , 4) => limit 1,2 =>改写成 limit 0, 1+2 => (1，2，3)

(5 , 6 , 7 , 8) => limit 1,2 =>改写成 limit 0, 1+2 => (5，6，7)

将子数列合并排序=> { 1，2，3，5，6，7} => 按原始偏移量 limit 1,2 =>{2，3} 正确

如果原数列中要取的数据，正好落在2个子数列上(1，2，3，4，5，6，7，8)，须要取出limit 3,2 ，即：(4，5)

(1 , 2 , 3 , 4) => limit 3,2 =>改写成 limit 0, 3+2 => (1，2，3，4)

(5 , 6 , 7 , 8) => limit 3,2 =>改写成 limit 0, 3+2 => (5，6，7，8)

将子数列合并排序=> (1，2，3，4，5，6，7，8) => 按原始偏移量 limit 3,2 => (4，5) 也合乎预期。

2.2 取模均摊拆成2段

(1，3，5，7) => limit 1,2 ->改写成 limit 0, 1+2 => (1，3 ，5)

(2，4，6，8) => limit 1,2 ->改写成 limit 0, 1+2=> (2，4，6)

将子序列合并=> (1，2，3，4，5，6) => 按原始偏移量 limit 1,2 =>(2，3) 正确

该办法毛病也很显著：取出的记录太多了，比方 limit 10000000,10 -> 改写后变成 limit 0, 10000010 遇到海量数据，mysql中查问有可能间接超时，这么多数据从db传到应用层，网络开销也很大，更不用说如果是java利用，大量数据放到List或Map中，容易呈现OOM。(注：个别状况下，须要用分库分表的场景，数据量必然很大，所以这个办法，理论中基本上没法用)

另外，MySQL 系列面试题和答案全副整顿好了，微信搜寻Java技术栈，在后盾发送：面试，能够在线浏览。

三、二次查问法

这也是"业界难题-跨库分页”一文中提到的一个办法，大抵思路如下：在某1页的数据均摊到各分表的前提下(注：这个前提很重要，也就是说不会有一个分表的数据特地多或特地少)，换句话说：这个计划不实用分段法，按如下步骤操作：

1）原sql中的limit offset,pagesize 改写成 limit offset/n ,pagesize (注：n为分表个数，如果offset/n除不尽，向下取整，防止最初的后果丢数据）-- 这个的意思，其实就是假如原表这一页的数据，会均分到各个分表(所以，我一再强调，前提是数据是均摊的，如果某个分表的记录很少，极其状况下，甚至是空的，这个就不对了，最终后果会少数据)

2）分表上，执行改写后的sql，失去一堆后果集，而后找出这堆后果中的最小id (假如id是要害的排序字段)，记为min_id -- 这一步的目标，是为了找出最小的起始点，保障第1页数据终点正确。

3）各分表上的sql，where条件局部改写成 id between min_id and origin_max_id (注：origin_max_id为上一步，每个分表查问后果集中的最大值，显然min_id=本身最小id的那张分表，不必再反复查问) -- 这一步的目标在于，因为步骤1）查出来的后果，通常会比原表上该页的数据少，所以这里从新将起始点设置到正确的地位，即：min_id，再查1次，相当于范畴扩充了，以保证数据不会丢。不过，这里有一个可优化的中央，认真想想，这1次查问进去的后果，跟步骤1）中的查出来的后果，必然有一部分是反复的，因而改写局部，只须要 id between min_id and origin_min_id就能够了(origin_min_id 即为原来分表后果上的最小id)

4）将上一步查问进去的后果，在内存中合并排序去重（注：如果上一步采纳了优化计划，就应该是把1）与3）这二次查问的后果全取出来合并排序去重），而后从开始间断取pagesize条数据即可（注：offset/n除不尽的话，向下取整了，也就是起始点可能向前多移了，所以有可能开始的第1条记录，其实是上1页的最初1条记录，要谋求准确的话，能够在应用层记录上一页最初1条记录的id，而后跟本次查问后果前1条记录比照，如果发现是一样的，开始取数据的地位，就要向后移1位，如果思考id有反复的话，就要依据状况多移几位）

验证一下看看成果：

场景1（前提：取余法）

原序列：(1，2，3，4，5，6，7，8)，须要取出limit 2,2 ，即：(3，4)

第1次查问

(1，3，5，7) -> limit 2,2 -> 改写成 limit 1,2 -> (3，5)

(2，4，6，8) -> limit 2,2 -> 改写成 limit 1,2 -> (4，6)

最小值为3

第2次查问

(1，3，5，7) -> between 3 and 5 -> (3，5)

(2，4，6，8) -> between 3 and 6 -> (4，6)

将第2次查问的后果合并：

(3，4，5，6) ->取头开始，取pageSize即2个元素 -> (3，4) 正确

-----------------------------------------------------

场景2（前提：取余法）

原序列：(1，2，3，4，5，6，7，8)，须要取出limit 1,2 ，即：(2，3)

第1次查问

(1，3，5，7) -> limit 1,2 -> 改写成 limit 0,2 -> (1，3) --注：因为1/2除不尽，这里向下取整了

(2，4，6，8) -> limit 1,2 -> 改写成 limit 0,2 -> (2，4)

最小值为1

第2次查问

(1，3，5，7) -> between 1 and 3 -> (1，3)

(2，4，6，8) -> between 1 and 4 -> (2，4)

将下面的后果合并：

(1，2，3，4) -> (2，3) (注：起始点，第1次查问改写时，向下取整了，所以这里要向移1位，从第2个数字开始取pagesize条数据)

--------------------------------------------------------

场景3（前提：分段法）

为什么说分段法，这个计划不实用，能够看上面的剖析：

原序列：(1，2，3，4，5，6，7，8)，须要取出limit 2,2 ，即：(3，4)

第1次查问

(1，2，3，4) -> limit 2,2 -> limit 1,2 -> {2，3} --注：这里就曾经把正确的数据给丢掉了

(5，6，7，8) -> limit 2,2 -> limit 1,2 -> {5，6} --注：这一段里基本就没有这一页的数据

最小值2

第2次查问

(1，2，3，4) -> between 2 and 3 -> {2，3}

(5，6，7，8) -> between 2 and 6 -> {5，6}

(2，3，5，6) -> (2，3) 这个跟预期后果就对不上了。

-------------------------------------------------------

场景4（前提：取余法）

取余法的前提下，如果某个分表的数据，被清掉一部分，也就是某个分表数据偏少，会产生什么？

比方上面这个，按奇数、偶数分成2个子序列，然而偶数成心删除了几个（相当于事实业务中，这个分表上的数据被干掉了一部分）

原序列：(1，3，5，6，7，8，9，11)，须要取出limit 2,2 ，即：(5，6)

第1次查问

(1，3，5，7，9，11) -> limit 2,2 -> 改写成limit 1,2 -> (3，5)

(6，8) -> limit 2,2 -> 改写成limit 1,2 -> (8)

第2次查问

(1，3，5，7，9，11) -> between 3 and 5 -> (3，5)

(6，8) -> between 3 and 8 -> (6，8)

合并后

(3，5，6，8) -> (3，5) 这跟预期后果也对不上。

四、禁止跳页

相当于只容许向上或向下翻页，原理很简略，比方：下一页，先记录上一页的最大id，而后下一页时，只须要 where id > 上一页最大id limit pagesize，每次只翻1页。显然，这是一个就义用户体验的做法。

论断：分表分页不存在一个通用的解决方案，要么性能有问题（比方:全局法 limit x+y），要么必须具备肯定的前提条件(比方：二次查问)，或者产品设计上就义用户体验，依然是一个业内难题。

参考文章：

https://juejin.im/post/5d1f52...

https://shardingsphere.apache...

https://stackoverflow.com/que...

http://kmiku7.github.io/2019/...

https://segmentfault.com/a/11...

https://mp.weixin.qq.com/s/h9...

本文版权归作者和博客园共有，欢送转载，但未经作者批准必须保留此段申明，且在文章页面显著地位给出原文连贯，否则保留查究法律责任的权力。

近期热文举荐：

1.1,000+ 道 Java面试题及答案整顿(2021最新版)

2.别在再满屏的 if/ else 了，试试策略模式，真香！！

3.卧槽！Java 中的 xx ≠ null 是什么新语法？

4.Spring Boot 2.5 重磅公布，光明模式太炸了！

5.《Java开发手册（嵩山版）》最新公布，速速下载！

感觉不错，别忘了顺手点赞+转发哦！