MySQL innoDB 索引实现原理

B+树和二叉树、平衡二叉树一样,都是经典的数据结构。B+树由 B 树和索引顺序访问方法演化而来,但是在现实使用过程中几乎已经没有使用 B 树的情况了。

B+树的定义在很多数据结构书中都能找到,非常复杂,我们概略它的定义,B+树是 B 树的一种变形形式,B+树上的叶子结点存储关键字以及相应记录的地址,叶子结点以上各层作为索引使用。一棵 m 阶的 B+树定义如下:

(1) 每个节点最多可以有 m 个元素;

(2) 除了根节点外,每个节点最少有 (m/2) 个元素;

(3) 如果根节点不是叶节点,那么它最少有 2 个孩子节点;

(4) 所有的叶子节点都在同一层;

(5) 一个有 k 个孩子节点的非叶子节点有 (k-1) 个元素,按升序排列;

(6) 某个元素的左子树中的元素都比它小,右子树的元素都大于或等于它;

(7) 非叶子节点只存放关键字和指向下一个孩子节点的索引,记录只存放在叶子节点中;

(8) 相邻的叶子节点之间用指针相连。

B+树是为磁盘或其他直接存取辅助设备设计的一种 平衡查找树。在 B+树中,所有记录节点都是按键值的大小顺序存放在同一层的叶子节点上,由各叶子节点指针进行连接。比如:

MySQL innoDB 索引实现原理
MySQL innoDB 索引实现原理

从上图我们可以归纳出 B+树的几个特征,在 B+树的简要定义中其实已经包括了:

(1) 相同节点数量的情况下,B+树高度远低于平衡二叉树;

(2) 非叶子节点只保存索引信息和下一层节点的指针信息,不保存实际数据记录;

(3) 每个叶子页(LeafPage)存储了实际的数据,比如上图中每个叶子页就存放了 4 条数据记录,当然可以更多,叶子节点由小到大(有序)串联在一起,叶子页中的数据也是排好序的;

(4) 索引节点指示该节点的左子树比这个索引值小,而右子树大于等于这个索引值。

2 InnoDB 记录存储结构

InnoDB 是一个将表中的数据存储到磁盘上的存储引擎,所以即使关机后重启我们的数据还是存在的。而真正处理数据的过程是发生在内存中的,所以需要把磁盘中的数据加载到内存中,如果是处理写入或修改请求的话,还需要把内存中的内容刷新到磁盘上。而我们知道读写磁盘的速度非常慢,和内存读写差了几个数量级,所以当我们想从表中获取某些记录时,InnoDB 存储引擎需要一条一条的把记录从磁盘上读出来么?

InnoDB 采取的方式是: 将数据划分为若干个页,以页作为磁盘和内存之间交互的基本单位,InnoDB 中页的大小一般为 16 KB。 也就是在一般情况下,一次最少从磁盘中读取 16KB 的内容到内存中,一次最少把内存中的 16KB 内容刷新到磁盘中。

3.1 聚簇索引

3.1.1 概念

InnoDB 中使用了聚集索引,就是将表的主键用来构造一棵 B+树,并且将整张表的行记录数据存放在该 B+树的叶子节点中。也就是所谓的索引即数据,数据即索引。由于聚集索引是利用表的主键构建的,所以每张表只能拥有一个聚集索引。

聚集索引的叶子节点就是数据页。换句话说,数据页上存放的是完整的每行记录。因此聚集索引的一个优点就是:通过过聚集索引能获取完整的整行数据。另一个优点是:对于主键的排序查找和范围查找速度非常快。

MySQL innoDB 索引实现原理

(1) 对于这个目录项记录而言,可以看到其数据内容部分有两个字段,分别为所指向页的记录最小主键值、所指向的页号,即主键值+页号。其表示了其所指向的数据页的记录主键值的下限

(2) 对于存放目录项记录的数据页而言,其内部依然是一个按主键值从小到大排序的单向链表

(3) 对于同一层中存放目录项记录的各数据页(即这里的25号页、29号页)而言,同样亦是一个按页内目录项记录主键值从小到大排序的双向链表

3.2.2 为什么主键要使用有序的

一般来讲,使用一个业务无关的自增( AUTO_INCREMENT )ID,可以保证数据在插入时会被按顺序写入。假设我们使用 UUID 作为聚簇索引,在插入数据的时候,聚簇索引所被插入的位置将变得完全随机。大量的随机插入会导致页分裂和碎片非常多。

下图展示了数据插入有序递增时,聚簇索引会如何存储插入的数据行:

MySQL innoDB 索引实现原理

可以看到,因为主键是有序的,InnoDB 把每一条记录都存储在上一条记录的后面。当当前页即将写满时(之所以是即将而不是已经,是因为 InnoDB 会预留一点空间用于以后修改数据,默认预留页的 1/16 大小),下一条记录被插入时,将会写入到新的页中去。所有被插入的数据,都将有序地放到聚簇索引最后的位置上去。

对应的,如果使用 UUID 作为主键索引,InnoDB 将完全随机地将数据插入到聚簇索引对应的位置上去:

MySQL innoDB 索引实现原理

如上,因为新插入的行的主键不一定比之前插入的大(由于是 UUID,将会非常随机),所以 InnoDB 将无法简单地总是把新行插入到索引的最后,而是需要根据主键 ID 的值为它寻找合适的索引位置,并为其分配空间。使用 UUID 作为聚簇索引,有以下缺点:

(1) 写入的目标页可能已经写入到磁盘而不只是存在于内存中,又或者目标页还没有被加载到内存中,InnoDB 在插入前需要先找到并从磁盘中读取目标页到内存中去,这会产生大量的磁盘随机 IO。

(2) 因为写入是乱序的,InnoDB 需要频繁地做页分裂操作,一遍为新的行分配空间。页分裂需要移动大量数据。

(3) 有序频繁的页分裂,页会变得稀疏并被不规则地填充,所以最终数据会有碎片。

3.2 辅助索引

3.2.1 概念

对于辅助索引(Secondary Index,也称二级索引、非聚集索引),叶子节点并不包含行记录的全部数据。叶子节点除了包含键值以外,每个叶子节点中的索引行中还包含了一个书签( bookmark)。该书签用来告诉 InnoDB 存储引擎哪里可以找到与索引相对应的行数据。因此 InnoDB 存储引擎的辅助索引的书签就是相应行数据的聚集索引键。

MySQL innoDB 索引实现原理

3.2.2 回表

辅助索引的存在并不影响数据在聚集索引中的组织,因此每张表上可以有多个辅助索引。当通过辅助索引来寻找数据时,InnoDB 存储引擎会遍历辅助索引并通过叶级别的指针获得指向主键索引的主键,然后再通过主键索引(聚集索引)来找到一个完整的行记录。这个过程也被称为 回表。也就是根据辅助索引的值查询一条完整的用户记录需要使用到 2 棵 B+树----一次辅助索引,一次聚集索引。

3.3 联合索引

前面我们对索引的描述,隐含了一个条件,那就是构建索引的字段只有一个,但实践工作中构建索引的完全可以是多个字段。所以,将表上的多个列组合起来进行索引我们称之为联合索引或者复合索引,比如 index(a,b)就是将 a,b 两个列组合起来构成一个索引。

千万要注意一点,建立联合索引只会建立 1 棵 B+树,比如,index(name,age,dept):

MySQL innoDB 索引实现原理

ps:联合索引的建立会变向的给带头大哥建立索引。

3.4 覆盖索引

既然多个列可以组合起来构建为联合索引,那么辅助索引自然也可以由多个列组成。

InnoDB 存储引擎支持覆盖索引(covering index,或称索引覆盖),即从辅助索引中就可以得到查询的记录,而不需要查询聚集索引中的记录。使用覆盖索引的一个好处是辅助索引不包含整行记录的所有信息,故其大小要远小于聚集索引,因此可以减少大量的 IO 操作。所以记住,覆盖索引并不是索引类型的一种。

MySQL innoDB 索引实现原理

如果我们查询只想查询id的值SQL为:

select id from users where name = ?

因为只需要id的值,通过name查询的时候,扫描完name索引,我们就能够获得id的值了,所以就不需要再去扫面id索引,就会直接返回。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容