高性能MySQL索引(Innodb)

前置问题

  • where条件的顺序会影响索引的使用?
  • 联合索引(idx_a_b ) 条件:“where a > 1 and b < 2”和“where a in (1,3) and b < 2” 有什么区别?
  • 使用uid作为主键有什么问题?
  • 一个表有两个索引,idx_a, idx_b,查询语句"where a > 1 and b < 2",会使用到几个索引
  • 查询条件肯定是越多,查询效率越快?
  • select * 和select field 差别其实没有多大,主要体现在网络Io上?
  • 一行SQL除了where条件,order by操作也是可以利用索引的?
  • 关于limit offset,SQL效率跟limit大小有关系,跟offset也有很大关系?
  • 如何优化uid字段索引?
  • select 1 > null 结果是什么?
  • Django ORM的弊端?

Innodb索引结构

索引我们都很熟悉,可以通过把要索引的key建立一个平衡二叉树,进行二分查找,使时间复杂度来到O(log2n),定位到key再通过内存指针找到自己的data,整个过程在内存中很快,但是对于数据库来说,这样的数据结构却不行,因为数据库是建立在硬盘上的。

图片来源网络侵删.png

我们先看一下硬盘读取数据的工作方式,磁盘可以转动,磁头是固定的不能转,但是可以伸缩,磁盘的同心圆称为磁道,而这个磁头伸缩,就是在寻找磁道,圆心和两个半径组成了一个扇区,操作系统发出电信号到磁盘,可能是一个逻辑地址,磁盘的电路会解析这个信息,变成磁道和扇区的物理地址,然后就开始磁盘转动和磁头伸缩。从内存电路到物理磁盘,性能下降是可想而知的,所以就有磁盘的预读特性,这也是依据计算机科学中著名的局部性原理:当一个数据被用到时,其附近的数据也通常会马上被使用。和共享内存的数据读取做法相似,它会往后再读一页或者几页(一页一般4k)。
图片来源网络侵删.png

那我们重新看二叉树的数据结构就会明白,每一个节点往下寻址一次,就等于一次物理转动,那这时候就需要不影响索引效率的情况下,尽可能小的减少磁盘转动。这样的数据结构就是B+Tree如下图,你会发现数据都尽可能的平铺在叶子节点,以减少磁盘io,前面有提到磁盘预读的设计,使用B+Tree结构就可以一次物理消耗读取一个叶子页的数据。一般情况下索引远远小于实际的数据,查询速度很慢,但是如果这个表超级大大到连索引也很大,这时候查询依然会很慢,这时候需要做的就是分库分表、数据归档等操作了。
图片来自高性能MySQL.png

这里不得不提到聚簇索引和非聚簇索引的区别,因为他们在物理结果上有一些不同,首先,我们先看一下聚簇索引。

聚簇索引

聚簇索引就是咱们经常说的主键索引、pk。如果没有主键呢,Innodb会选择第一个没空的唯一索引作为聚簇索引,如果这个唯一索引也没有,这个也是Innodb有而MyIsam所没有的设计。聚簇索引也是索引,也是前面的B+Tree的结构,但是聚簇索引和非聚簇索引不同的地方在于,非聚簇索引叶子节点保存的数据是聚簇索引id的地址,而聚簇索引叶子节点保存的是实际行的值,也就是说,实际行的值是按照聚簇索引排列的方式进行存储的。而myisam的结构则是数据和索引分开的,结构可以参照下图。


图片来自高性能MySQL.png

一条查询语句是怎么工作的?

一条查询语句会经过分析器进行词法分析、语法分析,经过优化器生成执行计划、索引选择,最后会操作引擎,返回结果,所以前面的问题,where条件的顺序会影响索引的使用吗?答案是不会,因为优化器已经帮你优化了。

image.png

如果查询条件有聚簇索引,优先选择聚簇索引,如果查询条件是非聚簇索引,会先查非聚簇索引,找到主键id,再去查找聚簇索引,找到自己想要的值,这个动作成为“回表”。

索引覆盖

上一节提到了“回表”,如果有回表动作,那么一行sql就要走两遍索引,只查询索引就可以把数据取出来的做法就叫做“索引覆盖”。这也是为什么大厂都禁止select *的写法,因为select *一定会回表。

前缀索引和索引选择性

有时候需要索引很长的字符串,这会让索引变得又大又慢,一种策略是使用哈希索引,把很长的字符串弄成一个hash值,但是这样做还不够,通常可以只索引开始的部分字符,这样可以大大节约索引空间,从而提高索引效率,但是这样会降低索引的选择性,选择性越高,代表使用索引后筛选到的值越少,所以怎么在选择性和索引长度之间做权衡。

可以比较:
count(distinct filed) / count(field) 与count(distinct left(field, n)) / count(field) 的比率
以uuid为例子,uuid有32位,在单表700w的场景下:
count(distinct uid) / count(uid)  = 1 VS count(distinct left(uid, 10)) / count(uid)  = 1
这时候就可以alter table xx add index idx_uid (uid(10)) 

前缀索引使索引更小、更快,但是另一方面前缀索引也有其缺点:MySQL无法使用前缀索引做order by和group by,也无法使用前缀索引做索引覆盖。

判断一个索引是否适合某一条查询?

  • 索引将相关记录放在一起
  • 索引中数据顺序和查询中的排列顺序一致
  • 索引中的列包含需要查询的全部列

索引可以既满足查找又满足排序

前提是:索引的顺序与order by的顺序一致,并且所有列的排序方向一致(不能是一个升序一个倒序),这样就可以使用索引进行排序了,而不是按索引顺序去数据库里把数据拉到服务器里(随机io了),再在一个临时文件里进行排序,这时候explain大多会出现filesort,这时候的效率是非常慢的。例子如下:

idx_a_b_c select a,b,c from table order by a,b,c  全部利用到索引 Using index
idx_a_b_c select * from table order by a,b,c 无法利用到索引 Using filesort
idx_a_b_c select a,b,c,d from table order by a,b,c 无法利用到索引 Using filesort
idx_a_b_c select a,b,c from table order by a,b desc,c  利用到一部分索引 Using index; Using filesort
idx_a_b_c select a, b, c from table where a=100 order by b,c  可以利用到索引排序 Using where; Using index
idx_a_b_c select a, b, c from table where a>100 order by b,c  利用到一部分索引 Using where; Using index; Using filesort

这里要说下 a in (1,2,3) 和 a >= 1 and a <= 3的区别;在联合索引的场景下如idx_a_b,如果是a in (1,2,3),不影响后面的b使用索引,如果是a >= 1 and a <= 3那么后面的b无法使用到索引。

索引合并

当在一张表建立多个字段的索引时候,一行SQL一般是只能使用到一个索引,直到MySQL5.0以后,有了索引合并这么的机制,一定程度上可以利用多条索引。

  • Using union 索引取并集
  • Using sort_union 索引排序取并集
  • Using intersect 索引取交集
    索引合并策略是一种优化结果,但实际上更多时候说明了表上的索引建的很糟糕,才会不得不使用索引合并进行优化。
    当在explain的执行计划里面出现上述索引合并时候,我们要知道以下问题:
  • 可以通过建立联合索引的方式解决Using intersect
  • 服务器对多个索引索引做联合操作时候,通常会耗费大量的CPU和内存资源在缓存、排序合并操作上,尤其是在索引的利用率不高,返回大量数据的情况下
  • 优化器不会把这些服务器的排序合并计算到“查询成本”中,优化器只关心随即页面读取。所以这些成本是被“低估”的成本
  • 一行SQL上利用多个索引做索引合并update时候,会提高死锁的概率。

关于NULL

  • NULL在MySQL中的意思是“未知”而不是False或者""
  • SELECT NULL, 1+NULL, CONCAT('Invisible',NULL);; 结果都是NULL
  • 当使用DISTINCT, GROUP BY, or ORDER BY, 所有的 NULL字段会被当成是相等的
  • 针对UNIQUE index,两个NULL值会被看到是相等的
  • 带有NULL值的唯一索引,无法被当做
  • order by的时候NULL会放在第一个(asc)或者最后一个(desc)
  • 当使用Aggregate (summary) 如COUNT() MIN() SUM()会忽略NULL
  • NULL会有些特殊的处理,如timestamp、AUTO-INCREMENT字段
  • 针对NULL字段建立索引,需要使用额外的空间

未来期望MySQL可以做到的

  • where条件可以传到存储引擎层index condition pushdown
  • 松散索引扫描
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容