1.mysql索引类型
1.1B-树索引
(B-树就是所说的B树)
使用树状结构存储数据库索引可以保证有序性而且查询效率也很高,但是为什么数据库的索引没有使用二叉查找树O(logN)来实现数据库的索引那?因为我们不得不考虑一个很现实的问题那就是数据库的索引是存储在硬盘上的,当数据量比较大的时候,索引甚至可能有几个G,我们无法将索引一次加入到内存当中,只能逐页的加载每一个磁盘页。最坏的情况下磁盘IO的次数就是树的深度。为了减少磁盘IO次数我们就要降低树的高度。
B树是一种多路平衡查找树,它的每一个结点最多包含K个孩子,k称为B树的阶,k取决于磁盘页的大小。
1.1.1一个m阶的B树必须满足以下条件:
1.根结点至少有两个子女。
2.每个非叶子节点都包含k-1个元素和k个孩子,其中 m/2 <= k <= m
3.每一个叶子节点都包含k-1个元素,其中 m/2 <= k <= m
4.所有的叶子结点都位于同一层。
5.每个节点中的元素从小到大排列,节点当中k-1个元素正好是k个孩子包含的元素的值域分划。
1 2 3 5 6 8 9 11 12 13 15
m=3;
k={2,3}
非叶子节点孩子={2,3}
非叶子节点元素={1, 2}
叶子节点元素= {1,2}
利用这种特性可以减少磁盘IO的次数,虽然可能查询的次数变多一点但是相比于磁盘IO的速度内存耗时几乎可以忽略不计。
1.1.2B树如何插入删除
假如要插入4
自上到下查找发现3<4<=5,但是节点3,5已经是两元素节点,无法再增加。父亲节点 {2,6 }也是两元素节点,也无法再增加。根节点9是单元素节点,可以升级为两元素节点。于是拆分节点{3,5}与节点{2,6},让根节点9升级为两元素节点{4,9}。节点6独立为根节点的第二个孩子。
虽然很复杂但是这也是B树的优势:自平衡
假如要删除11
删除11后,节点12只有一个孩子,不符合B树规范。因此找出12,13,15三个节点的中位数13,取代节点12,而节点12自身下移成为第一个孩子。(这个过程称为左旋)
1.2B+树
当索引项比较多的时候,不能一次装入内存,可以对索引再建立索引,形成多级索引。
1.2.1B+树的特征
一个m阶的B+树具有如下几个特征:
除了和B树有相同的特征外B+树还要满足以下的特征
1.非叶子节点包含有k个元素(B树中是k-1个元素),每个元素不保存数据,只用来索引,所有数据都保存在叶子节点。m/2<=k<=m
2.所有的叶子结点中包含了全部元素的信息,及指向含这些元素记录的指针,且叶子结点本身依关键字的大小自小而大顺序链接。
3.所有的非叶子节点元素都同时存在于子节点,在子节点元素中是最大(或最小)元素
在B+树中所有的叶子节点覆盖所有的数据记录,而非叶子节点只保存了索引,B树要所有的节点才能覆盖所有的数据记录。而且B+树的叶子节点形成了一个有序的链表。
1.2.2B+树的优势
- 单行查询
因为B+树的非叶子节点并不存储数据记录,而是只存储索引所以相同大小的磁盘也可以存储更多的节点元素,所以在单行查询时磁盘IO的次数更少。并且B+树查询最终查询必须在叶子节点上,而B树最好的情况只查询根节点,最坏要要查询叶子节点,所以B+树是稳定的而B树是不稳定查询。 - 范围查询
B+树只需要定位到最小的元素,然后遍历叶子节点的链表就能查询到所有的元素,而B树要每次都从上到下依次前序遍历到每一个元素。 - 总结:
单一节点存储更多的元素,使得查询的IO次数更少。
所有查询都要查找到叶子节点,查询性能稳定。
所有叶子节点形成有序链表,便于范围查询。
1.2.3插入和删除
B+树的插入和删除和B+树类似,最重要的区别就是节点指针的调整。
注:这里只是介绍了最常用两种索引原理,其他索引将在后面穿插介绍。