Mysql分区裁切问题

在看这个问题前,我默认您已经了解了mysql分区的相关概念,以及它的优点和缺点。本篇就不再赘述了,网上有非常多很优秀的总结,但是还是建议有能力的同学直接看官网内容。

一、简介

最近在做针对一张大表的查询优化,表结构相对简单,字段20多个,但有些varchar类型字段长度非常长。但该表每天都会被提交上百万的数据,时间长该表的查询与插入就变得非常非常的慢。调研后决定通过分区的形式优化该表。第一次分区后使用业务sql无法对分区查询进行正确的裁剪。

二、选择使用分区机制的理由:

(1)因为业务相对简单,并且都为单表查询,95%的查询都跟时间范围查询相关。

(2)数据需要定期清理数据,无需保留全部数据

(3)数据无更新操作,只有插入操作。

三、业务描述

该表类似于一个日志记录表,用于记录一次交易请求的全部登记信息。因为是前置服务,不用一直保留全部的记录,所以与需求人员沟通后决定只保留7天的数据。并且要提升插入数据的性能。

四、设计

方案一:

  1. 通过对表中数据 write_time(datetime类型) 字段进行取模操作,使其按照日期分别落入7天中的相应分区内。相应的操作语句如下。MOD(TO_DAYS(write_time), 7)为分区逻辑,使用RANGE 方式进行分区。
ALTER TABLE tableName PARTITION BY RANGE(MOD(TO_DAYS(write_time), 7)) 
(
    PARTITION p0 VALUES LESS THAN (1) ENGINE = InnoDB,
    PARTITION p1 VALUES LESS THAN (2) ENGINE = InnoDB,
    PARTITION p2 VALUES LESS THAN (3) ENGINE = InnoDB,
    PARTITION p3 VALUES LESS THAN (4) ENGINE = InnoDB,
    PARTITION p4 VALUES LESS THAN (5) ENGINE = InnoDB,
    PARTITION p5 VALUES LESS THAN (6) ENGINE = InnoDB,
    PARTITION p6 VALUES LESS THAN (7) ENGINE = InnoDB,
)
  1. 分区后 mysql会根据分区逻辑,将数据划分到不同的分区中。通过如下语句可以知道各个分区中数据的数量。到目前位置数据已经进入了相应的分区。
select Partition_name, table_rows from information_schema.`PARTITIONS` where table_name='tableName ';</pre>
  1. 按照业务逻辑对数据进行范围查询与统计

(1)时间范围查询(<= >=未正确对分区进行裁剪)

EXPLAIN select * from tableName where write_time <= "2021-10-01 23:59:00" and write_time >= "2021-10-01 22:00:00";

发现并没有对分区进行正确的裁剪(Partition Pruning)而是扫描了所有的分区,产生的执行计划如下:

1655564818013.png

(2)指定日期查询(=可以正确裁剪分区)

EXPLAIN select * from tableName where write_time = "2021-10-01 23:59:00"</pre>

这次执行计划中展示的裁剪分区后 , 查询的分区符合我们的期,但是这不符合我们需求。

image.png

最终各种尝试后这个方案被否掉。

方案二:(可行方案)

  1. 使用 TO_DAYS 函数对 write_time(datetime类型)字段进行处理,使其落入相应的天分区内。同样可以对数据进行正确的划分,但带来的问题就是要动态的删除分区与新增分区,因为时间时是不停的向前走的, LESS THAN()中的值是要递增的。所以可以通过建立定时任务,去定时执行对 pmax 分区(最后一个分区)的重新分区,并且删掉指定分区。例如在每天的 23:59:00 执行该定时任务。
ALTER TABLE tableName PARTITION BY RANGE ( TO_DAYS(write_time) ) (
    PARTITION p1 VALUES LESS THAN (738429) ENGINE = InnoDB,
    PARTITION p2 VALUES LESS THAN (738430) ENGINE = InnoDB,
    PARTITION p3 VALUES LESS THAN (738431) ENGINE = InnoDB,
    PARTITION p4 VALUES LESS THAN (739532) ENGINE = InnoDB,
    PARTITION p5 VALUES LESS THAN (740533) ENGINE = InnoDB,
    PARTITION p6 VALUES LESS THAN (741534) ENGINE = InnoDB,
    PARTITION p7 VALUES LESS THAN (742535) ENGINE = InnoDB,
    PARTITION pmax VALUES LESS THAN MAXVALUE
); 
  1. 按照业务逻辑对数据进行范围查询与统计

(1)时间范围查询(<= >= 未正确对分区进行裁剪)

EXPLAIN select * from tableName where write_time <= "2021-10-01 23:59:00" and write_time >= "2021-10-01 22:00:00";

通过执行计划查看,该处理方式复核预期:

image.png

并且对需求的所有业务场景尝试(指定日期时间的查询或统计,时间范围的查询或统计)后,均可符合预期。

四、一点思考

1. 为什么使用取模的方式,无法对分区进行正确的裁切?

(1)其实 mysql官网已经明确了对于 DATEDATETIME 类型的段 可以通过 YEAR() , TO_DAYS() 函数进行处理。官网上的写比较明确了。

This type of optimization can be applied whenever the partitioning expression consists of an equality or a range which can be reduced to a set of equalities, or when the partitioning expression represents an increasing or decreasing relationship. Pruning can also be applied for tables partitioned on a DATE or DATETIME column when the partitioning expression uses the YEAR() or TO_DAYS() function. Pruning can also be applied for such tables when the partitioning expression uses the TO_SECONDS() function.
官网链接:https://dev.mysql.com/doc/refman/8.0/en/partitioning-pruning.html

除了YEAR(), TO_DAYS() 这两个官网文章中的函数外, 我还尝试了 MONTH()DAYOFWEEK()DAYOFYEAR()等其他 Mysql 的函数,均未能正确的裁切分区。

(2)其实未能正确裁切分区的结论也是应该的,因为我们设计d的取模逻辑是周而复始的是一个循环,数据通过取模后不会不停的落到 LESS THAN 1 到 7的分区中,我们给定一个时间范围是不容易快速正确计算出分区区间的。

举例解释说明一下我的猜想与思考。

例1:日期范围是 【2022-06-13】至 【2022-06-20】 刚好为期 7天(一周),那么根据开始日期与结束日期计算产生的结果都是同一分区(假设P1),那我们查询数据时的范围不应该只是这一个分区,而是 P1 - P7所有的分区都要搜索。

例2:日期范围是 【2022-06-13】至 【2022-06-21】 的 与【2022-06-13】至 【2022-06-14】根据开始日期与结束日期计算产生的分区都是 P1,P2分区。但是前者应该要扫描P1-P7的所有分区,而后者应该只扫描 P1和P2分区就好。

小结:

所以对于这种场景设计的分区,其实在对分区裁剪时包含很多的场景与可能。所以解析器在解析这个过程时,可能会不如直接扫描所有分区来的快。

2. 对于 YEAR() , TO_DAYS() 这种可以正确裁剪分区函数的思考。

这两种函数所产生的结果,都是线性的。比如说年 YEAR(),产生的结果都是一直递增的,并不会有两个不同年份的日期经过 YEAR()函数得出同一个结果。TO_DAYS()函数也同样是这样,结果永远是线性的,不会循环往复,或有重复。

参考文章:

MySQL :: MySQL 8.0 Reference Manual :: 24.4 Partition Pruning
MySQL RANGE分区 - pursuer.chen - 博客园
为什么这个MySql查询(在分区表上)总是命中第一个分区? - 码客

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容

  • 获取关于分区的信息 本章讨论MySQL 5.1.中实现的分区。关于分区和分区概念的介绍可以在18.1节,“M...
    裘马轻狂大帅阅读 733评论 0 51
  • 摘要:MySQL分区表概述 随着MySQL越来越流行,Mysql里面的保存的数据也越来越大。在日常的工作中,我们经...
    暖夏未眠丶阅读 421评论 0 1
  • 一、背景话说风和日丽的一天,为提高随着业务增长的大表(3510449行吧)的访问效率,于是决定对表分区,记录如下。...
    peteLee阅读 9,895评论 0 3
  • 分区: 分区的功能不是在存储引擎层实现的。因此不只是InnoDB才支持分区。MyISAM、NDB都支持分区操作。 ...
    4ea0af17fd67阅读 1,766评论 0 0
  • mysql分区 Mysql支持水平分区,并不支持垂直分区;水平分区:指将同一表中不同行的记录分配到不同的物理文件中...
    Gundy_阅读 905评论 0 2