数据库基础3: 索引一

索引的目的就是为了提高查询效率

索引常见模型

哈希表

一种以键-值存储数据的结构
优点：

插入速度快
缺点：
哈希索引做区间查询的速度很慢
结论：
这种结构适用于只有等值查询的场景，比如memcached及其他一些NoSql引擎

有序数组

有序的数组结构
优点：

等值查询(二分查找)和范围查询场景中性能优秀
缺点：
插入速度慢、成本高
结论：
这种结构适用于静态存储引擎

搜索树

一种节点的左儿子小于父节点，父节点又小于右儿子的结构
优点：

查询、更新效率高，为O(log(N))
缺点：
索引不止在内存中，还要写在磁盘上。二叉搜索树的索引层次高，会产生高成本的磁盘IO。
结论
为了让一个查询尽量少地读磁盘，必须让查询过程访问经量少的数据库(尽量少的进行磁盘IO)。一般用N叉树，InnoDB的N在1200左右。

N叉搜索树由于在读写上的性能优点，以及适配磁盘的访问模式，已经被广泛应用在数据库引擎中了。

其他模型

跳表
LSM树

InnoDB的索引模型

在 InnoDB 中，表都是根据主键顺序以索引的形式存放的，这种存储方式的表称为索引组织表。又因为前面我们提到的，InnoDB 使用了 B+ 树索引模型，所以数据都是存储在 B+ 树中的。

InnoDB索引组织结构

图中左边为主键索引，右边为非主键索引

主键索引的叶子节点存的是整行数据。在InnoDB里也被成为聚簇索引
非主键索引的叶子结点存的是主键的值。在InnoDB里也被称为二级索引

这里引入一个问题：基于主键索引和普通索引的查询有什么区别？
1 如果语句是 select * from T where ID=500，即主键查询方式，则只需要搜索 ID 这棵 B+ 树；
2 如果语句是 select * from T where k=5，即普通索引查询方式，则需要先搜索 k 索引树，得到 ID 的值为 500，再到 ID 索引树搜索一次。这个过程称为回表。

结论：基于非主键索引的查询需要多扫描一棵索引树。因此，我们在应用中应该尽量使用主键查询。

索引维护

B+树为了维护索引有序性，在插入新值时需要做必要的维护。增加数据可能会出现页分裂。删除数据可能出现分裂过程的逆过程。
这里引入另一个问题：哪些场景下应该使用自增主键，而哪些场景下不应该
1 自增主键的插入数据模式，正符合了我们前面提到的递增插入的场景。每次插入一条新记录，都是追加操作，都不涉及到挪动其他记录，也不会触发叶子节点的分裂。
2 没有其他索引时，使用业务的唯一字段作为主键。

显然，主键长度越小，普通索引的叶子节点就越小，普通索引占用的空间也就越小.

面试

1.“N叉树”的N值在MySQL中是可以被人工调整的么？

通过改变key值来调整
N叉树中非叶子节点存放的是索引信息，索引包含Key和Point指针。Point指针固定为6个字节，假如Key为10个字节，那么单个索引就是16个字节。如果B+树中页大小为16K，那么一个页就可以存储1024个索引，此时N就等于1024。我们通过改变Key的大小，就可以改变N的值
改变页的大小
页越大，一页存放的索引就越多，N就越大。

2.innodb B+树主键索引的叶子节点存的是什么

B+树的叶子节点是page （页），一个页里面可以存多个行