InnoDB存储结构与索引

title: InnoDB存储结构与索引
date: 2020-01-14 20:39:13
categories: 数据库
tags:
- mysql
- 索引
- B+树
description: InnoDB是一个将表中的数据存储到磁盘上的存储引擎

InnoDB将数据划分为若干个页，以页作为磁盘和内存之间交互的基本单位，InnoDB中页的大小一般为 16 KB。也就是在一般情况下，一次最少从磁盘中读取16KB的内容到内存中，一次最少把内存中的16KB内容刷新到磁盘中。

行格式

InnoDB存储引擎到现在为止设计了4种不同类型的行格式，分别是Compact、Redundant、Dynamic和Compressed行格式。

指定行格式
CREATE TABLE 表名 (列的信息) ROW_FORMAT=行格式名称
ALTER TABLE 表名 ROW_FORMAT=行格式名称

Compact行格式

-----------------------------------------------------------------------------
| 变长字段长度列表 | NULL值列表 | 记录头信息 | 列1的值 | 列2的值 |.....| 列n的值 |
-----------------------------------------------------------------------------

变长字段长度列表：对于比如varchar类型可变长度的字段，存储的时候是不固定的，因此需要根据实际的值来计算出实际字段长度，保存到该列表

页数据结构

使用记录和槽的方式存储数据，

名称	解释	占用空间大小	描述
File Header	文件头部	38字节	页的通用信息，比如上一个页信息、下一个页
Page Header	页头部	56字节	数据页的专有信息，比如槽的数量，记录的数量
Infimum+Superemum	最小记录和最大记录	26字节	两个特殊的固定的记录
User Records	用户记录	不定	实际存储的行记录
Free Space	尚未使用的空间	不定	尚未使用的
Page Directory	页目录	不定	页中记录的相对记录，也就是槽记录的页中每组最后一条记录记录的位置
File Trailer	文件尾部	8字节	校验页的完整性

要点：

每个记录的头信息都有一个next_record的信息，从而形成单链表
InnoDB会把页记录划分为若干个组，每个组的最后一个记录的地址偏移量为一个槽，存放在Page Directory中，所以查找非常快
1. 通过二分法确定该记录所在的槽
2. 通过记录的next_record属性遍历该槽所在的组的各个记录(每个组只有4-5条记录)
每个数据页的File Header部分都有上一个和下一个页的编号，形成了一个双链表
为保证从内存中同步到磁盘的页的完整性，在页的首部和尾部都会存储数据的校验，和最后修改时对应的LSN值

B+树索引

在引入索引之前，如果通过主键查找，则可以通过二分法快速定位到相应的的槽，再依次遍历单链表即可找到记录，但如果是其他字段则没有槽，需要遍历数据页的所有记录，非常耗时

不论是根据主键列或者其他列的值进行查找，由于我们并不能快速的定位到记录所在的页

问题一：快速定位所在页

保证，下一个页的主键值大于上一个页中用户所有的主键值，所以在增删改查的时候会有一些记录移动的操作，这个过程叫做页分裂
由于页并不是连续的，所以需要建立一个页目录，页中最小主键值与页号对应。（这个目录就是叫做索引）
- 由于在数据量大的时候无法保证页目录连续，也就是看做无法用数组存储，所以采用存储数据的方式存储索引，这就是目录项记录页，只不过record_type属性不一样，这里是1，而普通记录的页中是0
- 如果数据更大，那么目录项记录页就可以再进行压缩，变成更高曾记得目录项记录页，也就有了如下的结构：

这就是B+树，以前一直不知道为什么只有叶子节点才存储数据，现在就非常清晰了，他们的record_type是不一样的！

聚簇索引

我们上边介绍的B+树本身就是一个目录，或者说本身就是一个索引。它有两个特点：

使用记录主键值的大小进行记录和页的排序，这包括三个方面的含义：
- 页内的记录是按照主键的大小顺序排成一个单向链表。
- 各个存放用户记录的页也是根据页中用户记录的主键大小顺序排成一个双向链表。
- 存放目录项记录的页分为不同的层次，在同一层次中的页也是根据页中目录项记录的主键大小顺序排成一个双向链表。
B+树的叶子节点存储的是完整的用户记录。

这种聚簇索引并不需要我们在MySQL语句中显式的使用INDEX语句去创建（后边会介绍索引相关的语句），InnoDB存储引擎会自动的为我们创建聚簇索引

二级索引

上边介绍的聚簇索引只能在搜索条件是主键值时才能发挥作用，因为B+树中的数据都是按照主键进行排序的。那如果我们想以别的列作为搜索条件该咋办呢？难道只能从头到尾沿着链表依次遍历记录么？

不，我们可以多建几棵B+树，不同的B+树中的数据采用不同的排序规则。比方说我们用c2列的大小作为数据页、页中记录的排序规则，再建一棵B+树，效果如下图所示：

[图片上传失败...(image-e59db8-1614334697826)]

注意与主键的聚簇索引有3点不同：

页内记录都是按照c2来排列
B+树的叶子节点存储的不是完整的用户记录，而只是c2+主键这两个列的值
目录项记录中不再是主键+页号，而是c2+页号

所以查找过程也与主键查找方式不同，我们是先通过索引建立的B+树找到主键值，再通过主键找到对应的完整记录，这个过程称为回表，也就是根据c2列需要用到2棵B+树

联合索引

我们也可以同时以多个列的大小作为排序规则，也就是同时为多个列建立索引，比方说我们想让B+树按照c2和c3列的大小进行排序，这个包含两层含义：

先把各个记录和页按照c2列进行排序。
在记录的c2列相同的情况下，采用c3列进行排序

不同之处与二级索引类似，注意，之前我们常常提到的最左匹配就是这个原理，先比较c2，再比较c3，如果没有c2，那么索引失效

注意构建B+树过程，根节点一直不变

InnoDB存储结构与索引