索引的出现是为了提高数据查询效率,就像一本书的目录。
一、索引的常见类型
- 哈希表
- 有序数组
- 搜索树
1、哈希表
哈希表是一种键-值存储数据的结构,通过哈希函数把key转换成数组中一个确定的位置,然后把value放到这个位置。不同key得到相同位置时,一种解决方法是拉出一个链表,查找该值时遍历该链表。
但是可以想象,做区间查询时速度会很慢,需要扫描全部的数据。因此,哈希表这种结构适用于只有等值查询的场景,比如Memcached及其他一些NoSQL引擎。
2、有序数组
有序数组在等值查询和范围查询场景中的性能都很优秀。可以通过二分法O(log(N))
快速查到一个递增数组中的值。仅看查询效率,有序数组是最好的数据结构。但是,更新数据时,往中间插入一个记录就必须挪动后面所有的记录,成本太高。因此,有序数组适用用静态存储引擎,如2017年某个城市的人口信息。
3、搜索树
二叉搜索树的特点是每个节点的左儿子小于父节点,父节点小于右节点。查询时间复杂度为O(log(N))
。为了维护O(log(N))的复杂度,要保证这棵树为平衡二叉树,更新的时间复杂度也是O(log(N))
。
树有二叉,也有多叉。二叉树搜索效率最高,然而大多数数据库存储不使用二叉。因为索引不只存在内存中,还要写到磁盘上。想象下一颗100万节点的平衡二叉树,树高20,一次查询可能需要访问20个数据块。机械硬盘时代,从磁盘读一数据块需要10ms
左右的寻址时间,访问一个100万行的表如果用二叉树存储,可能需要20*10ms
毫秒的时间,可真够慢的。
为了让一个查询尽量少读磁盘,就必须让查询过程访问尽量少的数据块,因此使用'N叉'
。
InnoDB的整数字段索引,这个N差不多是1200。当树高为4时,1200的三次方已经可以存储17亿行数据了。考虑到树根总在内存中,一个10亿行表上的整数字段索引,查找一个值最多只需要访问三次磁盘。其实第二层很大概率也在内存中,因此访问磁盘的平均次数就更少了。
二、InnoDB的索引引擎
InnoDB中,表都是根据主键顺序以索引的形式存放的,这种存储方式的表称为索引组织表。InnoDB使用B+树索引模型,所有的数据都是存在B+树中的。
每个索引在InnoDB里对应一颗B+树,一张表就是1或者几个B+树组成的。
如下表:
mysql> create table T(
id int primary key,
k int not null,
name varchar(16),
index (k))engine=InnoDB;
表中 R1~R5 的 (ID,k) 值分别为 (100,1)、(200,2)、(300,3)、(500,5) 和 (600,6),两棵树的示例示意图如下。
索引类型根据叶子节点的内容,分为主键索引和非主键索引。
主键索引叶子结点存的是整行数据,主键索引也称为聚簇索引(clustered index)。
非主键索引叶子结点存的是主键的值,非主键索引也称为二级索引(secondary index)。
基于主键索引和普通索引的查询有什么区别?
- 如果语句是 select * from T where ID=500,即主键查询方式,则只需要搜索 ID 这棵 B+ 树;
- 如果语句是 select * from T where k=5,即普通索引查询方式,则需要先搜索 k 索引树,得到 ID 的值为 500,再到 ID 索引树搜索一次。这个过程称为
回表
。
基于非主键索引的查询需要多扫描一颗索引树,因此应尽量使用主键索引。
三、索引维护
B+ 树为了维护索引有序性,在插入新值的时候需要做必要的维护。以上面这个图为例,如果插入新的行 ID 值为 700,则只需要在 R5 的记录后面插入一个新记录。如果新插入的 ID 值为 400,则需要逻辑上挪动后面的数据,空出位置。
而更糟的情况是,如果 R5 所在的数据页已经满了,根据 B+ 树的算法,这时候需要申请一个新的数据页,然后挪动部分数据过去。这个过程称为页分裂
。在这种情况下,性能自然会受影响。页分裂操作还影响数据页的利用率。原本放在一个页的数据,现在分到两个页中,整体空间利用率降低大约 50%。
当相邻两个页由于删除了数据,利用率很低之后,会将数据页做合并。合并的过程,可以认为是分裂过程的逆过程。
为什么往往推荐使用自增主键?
自增主键的插入数据模式,正符合了我们前面提到的递增插入的场景。每次插入一条新记录,都是追加操作,都不涉及到挪动其他记录,也不会触发叶子节点的分裂。
除了考虑性能外,我们还可以从存储空间的角度来看。
假设你的表中确实有一个唯一字段,比如字符串类型的身份证号。
由于每个非主键索引的叶子节点上都是主键的值。如果用身份证号做主键,那么每个二级索引的叶子节点占用约 20 个字节,而如果用整型做主键,则只要 4 个字节,如果是长整型(bigint)则是 8 个字节。
显然,主键长度越小,普通索引的叶子节点就越小,普通索引占用的空间也就越小。
所以,从性能和存储空间方面考量,自增主键往往是更合理的选择。**
本文是对极客时间中林晓斌老师的《Mysql实战45讲》的笔记总结,长期更新。
如有侵权,请联系我立刻删除。