1. 全局视野法
如果要获取第N页的数据(每页S条数据),则将每一个子库的前N页(offset 0,limit N*S
)的所有数据都先查出来(有筛选条件或排序规则的话都包含),然后将各个子库的结果合并起来之后,再做查询下top S
(可不用带上相同的筛选条件,但还要带上排序规则)即可得出最终结果,这种方式类似es分页的逻辑。
优点: 数据准确,可以跳页
缺点: 深度分页时的性能差,即随着分页参数增加,网络传输数据量越来越大,每个子表每次需要查询的数据越多,性能也越慢
2. 禁止跳页查询(对应es中的scroll方法)
如果要获取第N页的数据,第一页时,是和全局视野法一致,但第二页开始后,需要在每一个子库查询时,加上可以排除上一页的过滤条件(如按时间排序时,获取上一页的最大时间后,需要加上time > ${maxTime_lastPage}
的条件;如果没有排序规则,由于是默认主键id的排序规则,也可加上 id > ${maxId_lastPage}
的条件),然后再limit S
,即可获取各个子库的结果,之后再合并后top S
即可得到最终结果。在类似app中列表下拉的场景中,业务上可以禁止跳页查询,此时可以使用这种方式。
优点: 数据准确,性能良好
缺点: 不能跳页
3. 模糊查询
在大数据量的前提下,需要查询的数据,从概率论角度,是均匀分布在各个字库中的,因此可以假定需要查询的第N页数据,在子库中都处于第N/X
页的前S/X
条中(X=子库数);所以查询子库时,限定offset ((N/X)-1)*S/X,limit S/X
即可,例N=S=100,X=2
时,子库分页条件为offset 4950,limit 50
;然后合并子库结果后即可得出最终结果,当然这个结果是不准确的。在类似网页回帖上的场景下,往往数据精度要求不太高,此时可以使用这种方式。
优点: 性能良好,可以跳页
缺点: 数据不准确
4. 二次查询
也是在大数据量的前提下,依据概率论,可以假定需要查询的第N页的数据,在子库中都处于第N/X
页的后面。然后可按如下步骤查询:
1). [第一次查询] 按指定条件(筛选条件或排序规则条件)查询各个子库的S条数据,即offset ((N/X)-1)*S/X,limit S
2). 如果没有排序规则条件,则默认主键id排序,那么获取各个子库的返回数据的最小值和最大值: min_i_id,max_i_id
;如果有排序条件,就按排序条件获取
3). 比较各个子库的min_i_id
,得到最小的,定义为min_id
4). [第二次查询] 再次查询(有筛选条件的话也要包含)各个子库,加上条件: min_id<id<max_i_id
;(注: min_i_id = min_id
的子库可省略查询)
5). 查看第二次查询结果中,min_id_id != min_id
的其它子库中,共多了几条数据,如果多了M条,则可以得出全局中,min_id前面的数据有(((N/X)-1)*S/X)*X - M
=> ((N/X)-1)*S-M
条,((N/X)-1)*S-M
即为min_id
的全局offset
6). 计算真正的全局offset: ((N-1)*S)
和min_id
的全局offset: ((N/X)-1)*S-M
之间的差值K,由公式可得: K>=0
7). 合并第二次查询的各子库结果,并按id排序后,以K为offset,S为limit
即可得到最终全局的分页结果
优点: 性能良好,可以跳页,数据相对准备,可以返回各个字库中
offset ((N/X)-1)*S/X
之后的实际数据
缺点: 需要二次查询,逻辑复杂,不完全精确,可能会漏掉各个子库中offset ((N/X)-1)*S/X
之前的实际数据,以及之后不该包含的部