MySQL调优之索引优化

TABLE OF CONTENTS

1 索引是什么
2 索引的底层结构
3 什么时候用索引
4 如何用好索引

索引是什么

正经的定义:在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。
简单来说,索引是能够帮助我们快速查找需要的数据行的东西。就像我们平时查字典,先翻目录,通过拼音查到字对应的页码,就可以快速地找到我们需要的东西,而不用翻阅整本书。


字典目录

索引的底层结构

如果要我们自己实现一个索引,你会怎么做?

哈希表

一个最直接的想法就是使用一个哈希表去存储(C++中可以使用unordered_map,Java中可以使用HashMap),通过key去查找对应的value,这样的效率最高,在哈希函数选择比较合适的情况下,时间复杂度为O(1)。

但是哈希索引有很多问题:

  1. 只支持等值查找,不支持范围查找。(比如,相亲网站需要查找年龄18~25的人群)
  2. 只支持全键值查找,不支持最左前缀查找。(比如,只能查找张三,无法查找姓名是开头的)
  3. 索引无法用于排序。
  4. ...
    只有memory存储引擎显式支持了哈希索引,但是InnoDB有自适应哈希索引去处理热点数据。

那用二叉查找树(Binary Search Tree)如何?二叉树数据有序,查找/插入/删除的效率高。
查找的平均时间复杂度为O(logn(底数为2)),最差为O(n)。

二叉查找树(BST)

二叉查找树的一个缺点就是没有处理平衡,在极端情况下,会退化成类似于链表的结构。就像这样:

image.png

那用自平衡二叉查找树(Adelson-Velsky and Landis Tree)如何?左子树的高度与右子树的高度的差至多是 1,避免了二叉树退化为链表的问题。查找的时间复杂度为O(logn(底数为2)),最差为O(logn(底数为2))
AVL树

AVL树解决了BST的平衡问题,但是AVL每次插入/删除时,都需要维护树的平衡问题(旋转),开销比较大。
那用红黑树(Red-black Tree)如何?
红黑树

红黑树相对于AVL树来说,牺牲了部分平衡性以换取插入/删除操作时少量的旋转操作,整体来说性能要优于AVL树。(从根到叶子的最长的可能路径不多于最短的可能路径的两倍长。)Java里的TreeMap就是用红黑树去实现的。
那为啥MySQL选择了B-Tree,而不是红黑树?因为MySQL的索引是需要落盘的,磁盘I/O远比内存慢,而B-Tree需要的磁盘I/O比红黑树少得多。
B-Tree

RBT

通过上图,我们可以看到,要存储20个key,B-Tree的树高只有2,而红黑树(RBT)的树高是6。访问结点20的时候,使用B-Tree只需要2次磁盘操作,而红黑树需要6次磁盘操作。在实际应用中,B-Tree的出度一般会很大,通常是100以上,所以往往树高为3时,就可以存储百万级数据(100^3),而红黑树需要40的树高(2lg(n+1)),显然B-Tree需要的I/O次数少得多。
MySQL的InnoDB存储引擎使用的是B+Tree,这是B-Tree的变种。
B-Tree

B+Tree

与B-Tree不同的是,B+Tree的中间结点(非叶子结点)不存储data,而只存储key,所以能存储更多的key,即B+Tree的出度比B-Tree更大。data都存在叶子结点上,叶子结点之间使用指针连接,加速区间访问的性能。(不用做中序遍历)

什么时候用索引?

对于非常小的表,比如1000行以下的,通常来说,简单的全表扫描更高效,使用索引反而会带来额外的维护成本。对于中到大型的表,索引就非常有效了。但对于特大型的表,建立和使用索引的代价将随之增长。这种情况下,则需要一种技术可以直接区分出查询需要的一组数据,而不是一条记录一条记录地匹配。

如何用好索引(主要针对InnoDB引擎)

1 独立的列(不要在索引上做运算)

索引列不能是表达式的一部分,或者用作函数的参数,否则,MySQL无法使用索引快速地找到需要的数据行,因为对索引字段做了一些操作,而操作的结果,显然无法用上B-Tree里面存储的原始字段值去查找。
比如下面的两个例子(actor表有两个索引:1. actor_id的主键索引 2. last_name的普通索引):
例一:

SELECT * FROM sakila.actor WHERE actor_id + 1 = 5;

通过查看执行计划(EXPLAIN SELECT * FROM sakila.actor WHERE actor_id + 1 = 5;)可以发现,MySQL走了全表扫描(type为All),优化器估计需要扫描200行(rows为200),而没有使用索引。


EXPLAIN结果

改写为:

SELECT * FROM sakila.actor WHERE actor_id = 4;

再看执行计划:


改写后

用了主键索引(Key为PRIMARY ),只扫描了一行(rows为1)。
例二(官方的payment表在payment_date上没有索引,需要自行加上):

SELECT * FROM sakila.payment WHERE YEAR(payment_date) = 2006;

通过查看执行计划,可以发现,走了全表扫描,需要扫描16086行,没有使用索引。


索引字段作为函数参数

改写为:

SELECT * FROM payment WHERE payment_date BETWEEN DATE('2006-01-01') AND DATE('2006-12-31');

再看一眼执行计划:

改写后

用了idx_payment_date这个索引,只需要扫描182行。

2 最左前缀原则

like '%xxx' 不会使用索引。就像之前提到的字典目录的这个例子,MySQL会使用B-Tree去存储key,也就是这里的拼音,我们可以通过索引字段的左前缀去查找,比如查找zhu开头的,都有哪些(zhu, zhua, zhuai, zhuan, zhuang)。但是如果想要查找'ang'结尾的,MySQL就不会使用索引了。

字典目录

MySQL支持联合索引(一个索引包含多个字段),但是如果查询的时候没有满足最左前缀原则,也无法用上索引。
有以下的user表,我们在name, age上创建联合索引:

CREATE TABLE `tuser` (
  `id` int(11) NOT NULL,
  `id_card` varchar(32) DEFAULT NULL,
  `name` varchar(32) DEFAULT NULL,
  `age` int(11) DEFAULT NULL,
  `ismale` tinyint(1) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `id_card` (`id_card`),
  KEY `name_age` (`name`,`age`)
) ENGINE=InnoDB
索引结构示意图

和like的规则是类似的:

SELECT * FROM tuser WHERE name='张三'; -- 可以使用索引
SELECT * FROM tuser WHERE name='张三' AND age=10; -- 可以使用索引
SELECT * FROM tuser WHERE age='10'; -- 无法使用索引

3 覆盖索引(不要动不动就SELECT *)

InndoDB存储索引的key时,是按照原样保存的,这意味着如果索引已经包含了需要查询的信息时,就不用从行数据(data)里面拿了。特别是针对二级索引,就可以不用回表了。
比如上面的例子,如果想查'张三'的年龄可以这么写:

SELECT age FROM tuser WHERE name='张三'; -- 使用索引覆盖
SELECT * FROM tuser WHERE name='张三'; -- 索引无法覆盖,需要查询原始的行数据

4 索引失效的常见例子

  1. 表关联的时候,JOIN字段的字符集不一样。
  2. or条件会导致索引失效。如果查询条件中使用了or,只要其中一个条件没有索引,其他条件(字段)有索引也不会使用。解决方案:1.给or的所有字段添加索引(不是联合索引)2. 使用union或者union all
  3. 隐式转换,当查询条件左右两侧类型不匹配的时候会发生隐式转换,可能导致查询无法使用索引。

参考

  1. 8.3.9 Comparison of B-Tree and Hash Indexes
  2. 《高性能MySQL第三版》第五章
  3. 二叉查找树,红黑树,AVL树,B~/B+树(B-tree),伸展树——优缺点及比较
  4. MYSQL(一)-------为什么使用B+树或者B-树做为索引结构?
  5. MySQL实战45讲
  6. SQL必知必会
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容