1.大批量插入数据
使用load 命令导入数据:
对于 InnoDB 类型的表,有以下几种方式可以提高导入的效率:
1) 主键顺序插入
无顺序:
2) 关闭唯一性校验
在导入数据前执行 SET UNIQUE_CHECKS=0
,关闭唯一性校验,在导入结束后执行SET UNIQUE_CHECKS=1
,恢复唯一性校验,可以提高导入的效率。
如果表中存在唯一性索引,那么在插入数据的时候数据库会维护这个唯一性索引,插入数据会花费更多的时间。
3) 手动提交事务
如果应用使用自动提交的方式,建议在导入前执行 SET AUTOCOMMIT=0
,关闭自动提交,导入结束后再执行 SET AUTOCOMMIT=1
,打开自动提交,也可以提高导入的效率。
优化insert语句
1) 合并insert语句
原始:
insert into tb_test values(1,'Tom');
insert into tb_test values(2,'Cat');
insert into tb_test values(3,'Jerry');
优化后:
insert into tb_test values(1,'Tom'),(2,'Cat'),(3,'Jerry');
2) 使用事务手动提交
start transaction;
insert into tb_test values(1,'Tom');
insert into tb_test values(2,'Cat');
insert into tb_test values(3,'Jerry');
commit;
如果数据量比较大,分段提交。
3) 按照主键顺序插入
原始:
insert into tb_test values(4,'Tim');
insert into tb_test values(1,'Tom');
insert into tb_test values(3,'Jerry');
insert into tb_test values(5,'Rose');
insert into tb_test values(2,'Cat');
优化后:
insert into tb_test values(1,'Tom');
insert into tb_test values(2,'Cat');
insert into tb_test values(3,'Jerry');
insert into tb_test values(4,'Tim');
insert into tb_test values(5,'Rose');
3.优化order by语句
在MySQL中有两种排序方式,也就是在explain语句的时候EXTRA列可能出现的参数中的两种:
1)FileSort 排序
通过对返回数据进行排序,也就是通常说的 filesort 排序,所有不是通过索引直接返回排序结果的排序都叫 FileSort 排序。
新建的联合索引是age,salary,主键索引为id。
这种排序效率比较低。
2) using index排序
第二种通过有序索引顺序扫描直接返回有序数据,这种情况即为 using index,不需要额外排序,操作效率高。
在多字段排序时:
尽量减少额外的排序,通过索引直接返回有序数据。where 条件和Order by 使用相同的索引,并且Order By 的顺序和索引顺序相同。
并且Order by 的字段都是升序,或者都是降序。否则肯定需要额外的操作,这样就会出现FileSort。
Filesort 的优化
通过创建合适的索引,能够减少 Filesort 的出现,但是在某些情况下,条件限制不能让Filesort消失,那就需要加快 Filesort的排序操作。对于Filesort , MySQL 有两种排序算法:
1) 两次扫描算法
MySQL4.1 之前,使用该方式排序。首先根据条件取出排序字段和行指针信息,然后在排序区sort buffer 中排序,如果sort buffer不够,则在临时表 temporary table 中存储排序结果。完成排序之后,再根据行指针回表读取记录,该操作可能会导致大量随机I/O操作。
2)一次扫描算法
一次性取出满足条件的所有字段,然后在排序区 sort buffer 中排序后直接输出结果集。排序时内存开销较大,但是排序效率比两次扫描算法要高。
MySQL 通过比较系统变量 max_length_for_sort_data 的大小和Query语句取出的字段总大小, 来判定使用哪种排序算法,如果max_length_for_sort_data 更大,那么使用第二种优化之后的算法;否则使用第一种。
可以适当提高 sort_buffer_size 和 max_length_for_sort_data 系统变量,来增大排序区的大小,提高排序的效率。
4.优化group by 语句
GROUP BY 实际上也会进行排序操作,而且与ORDER BY 相比,GROUP BY 主要只是多了排序之后的分组操作。
如果想要避免排序结果的消耗, 则可以执行order by null 禁止排序。
原始:
explain select age,count(*) from emp group by age;
优化后:
explain select age,count(*) from emp group by age order by null;
还可以创建索引来优化group by 语句:
create index idx_emp_age_salary on emp(age,salary);
5.优化嵌套查询
查找有角色的所有的用户信息 (使用嵌套查询子查询):
优化:
使用多表联查来替代子查询:
6.优化OR
对于包含OR的查询语句,如果要利用索引,则OR关联的各个字段都必须有索引 , 而且不能使用到复合索引,如果有一个字段没有索引,那么所有的字段的索引都会失效; 如果没有索引,则应该考虑增加索引。
id字段有主键索引,而name字段没有索引:
有联合索引,可以看到使用OR后没有使用联合索引:
创建索引来优化OR查询理论上是可行的,但是很多官方网站更推荐用union 替换 or。
查询id:
因为id有主键索引,所以查询的时候走了主键索引,但是type的类型是range,所以查询效率还可以再优化,使用union优化(union就是求并集):
const的查询效率远远高于range。
再举一个例子:
原始:
优化:
type 显示的是访问类型,结果值从好到坏依次是:
system > const > eq_ref > ref > fulltext > ref_or_null > index_merge >
unique_subquery > index_subquery > range > index > ALL
7.优化分页查询
limit查询越往后,查询效率越低:
查询前面的值:
查询后面的值:
因为进行分页操作的时候,首先会进行排序操作。当查询从200w条记录开始,获取10条记录时,相当于要对前2000010条记录进行排序,排序后,仅仅返回2000000-2000010条记录,前2000000条数据就丢弃了,代价比较大。
优化思路1
在索引上排序,取到要返回结果的索引,再根据这个索引,到原来的表中查询全部结果。
根据主键关联回原表查询所需要的其他列内容:
比较:
优化思路2
适用于主键自增的表(而且不能出现断层),把limit查询转化成某个位置的查询。
8.使用SQL提示
USE INDEX
建议数据库考虑使用某个索引。
IGNORE INDEX
FORCE INDEX
为强制MySQL使用一个特定的索引,可在查询中使用 force index。
如果时use index,只是让数据库考虑使用某个索引,数据库可以采用也可以不采用:
使用force index:
9.应用优化
1)使用数据库连接池
对于访问数据库来说,建立连接的代价是比较昂贵的,因为我们频繁的创建关闭连接,是比较耗费资源的,我们有必要建立 数据库连接池,以提高访问的性能。
2)减少对MySQL的访问
1.避免对数据进行重复检索
比如 ,需要获取书籍的id 和name字段 , 则查询如下:
select id , name from tb_book;
之后,在业务逻辑中有需要获取到书籍状态信息, 则查询如下:
select id , status from tb_book;
这样,就需要向数据库提交两次请求,数据库就要做两次查询操作。其实完全可以用一条SQL语句得到想要的结果。
select id, name , status from tb_book;
2.增加cache层
在应用中,我们可以在应用中增加 缓存 层来达到减轻数据库负担的目的。缓存层有很多种,也有很多实现方式,只要能达到降低数据库的负担又能满足应用需求就可以。
因此可以部分数据从数据库中抽取出来放到应用端以文本方式存储, 或者使用框架(Mybatis, Hibernate)提供的一级缓存/二级缓存,或者使用redis数据库来缓存数据 。
3)负载均衡
- 利用MySQL复制分流查询
通过MySQL的主从复制,实现读写分离,使增删改操作走主节点,查询操作走从节点,从而可以降低单台服务器的读写压力。
2.采用分布式数据库架构
分布式数据库架构适合大数据量、负载高的情况,它有良好的拓展性和高可用性。通过在多台服务器之间分布数据,可以实现在多台服务器之间的负载均衡,提高访问效率。