问题背景
惯例,先交代一下问题背景,遇到一个JavaWeb的项目,使用了Mysql数据库,其中有一张历史记录history表…此处想到这张表就有些许头疼头疼头疼,那么问题来了,这表恶心到什么程度呢?每秒钟400多条,每秒…什么数据量呢?客户要求保留一年历史记录…一年的数据量预估计400✖️60✖️60✖️24✖️365=12614400000,百亿级别的数据量...可能很多认为分布式数据包括大数据处理方式处理这点数据不是很容易吗?如果可以这样我就开心的笑了...客户的要求是,服务器上只能安装JavaWeb环境和一个MYSQL,服务器是什么呢?就是一台超大容量硬盘的台式机,这是重点,这也是所有问题的根源。没有分布式环境,各种先进的技术用不上,本来还可以用一些数据库中间件,如Mycat、sharding-sphere等等,因为啥都不让往服务器(台式机)上装。这里小小的吐槽一下,我门做的是JavaWeb项目,客户的服务器(台式机)是不用的时候关机,用的时候开机,开机之后各种服务应用随机启动。这TMD是JavaWeb服务器啊!!!
问题分析
一、 数据量
1)数据分割:
一年的数据量太大了,首先要考虑分割,如何分割?按照计算,每天的数据量是34560000,显然千万级的还是太大,继续分割,最后我选择按照小时分割1440000,小百万级,问题不大了。
2)分割数据依据:
按小时分割显然就是数据创建时间了create_time。
二、查询效率:
1)大表带来的第一个问题就是查询效率的问题,合理建立索引是很关键的。
2)切分数据,也就是分区的使用(这里后面会详细介绍,毕竟这篇文章就是分享MYSQL分区表使用经验的)
基本思路
一、优化您的SQL
二、优化您的SQL
三、建立良好的索引
四、合理使用MYSQL自带的分区功能
五、根据分区的实际情况再优化您的SQL (重要的事情说三遍)
MYSQL分区功能介绍
一、使用分区表不像我们使用传统意义上的分库/分表那样麻烦,需要修改应用层的逻辑代码,水平拆分还需要考虑全局主键的问题。
二、MYSQL的分区表是数据层面上的,程序员可以无感,具体分区表的介绍我发的文章链接里面已经很详细了,我就不重复BB了。