索引是帮助数据库进行快速查找的一种有序的数据结构。

数据库索引为什么使用B+树

数据库中索引都放在磁盘中，在进行查找数据的时候应该尽量避免磁盘I/O。

局部性原理与磁盘预读

根据局部性原理，如果当前时刻访问了该值那么该值周围的数据很有可能也会被访问。因此我们在获取磁盘中的数据时，一般都会从该值开始一次性获取后面一页大小4KB的数据。
采用B+树刚好利用这一机制将一个节点的大小设置为一页的整数倍，一般为16K，可以大量的减小磁盘I/O。

B+树特性

B+树的非叶子节点上只存储索引数据，因此相对于B-树来说非叶子节点上可以存储更多的数据，可以减小树高，减小磁盘I/O。
B+将全部数据都放在了叶子节点上，并且是有序的。相当于使用hash表来说对一些排序，区间范围查找更加有效。

数据库引擎

MyIsam

MyIsam只支持表级锁，不支持事务，是非聚簇引擎。

MyIsam索引.png

叶子节点中的存放的是地址。根据索引搜索到地址后根据地址去获取数据。
辅助索引与主键索引是一样的都是获取地址值，只是主键索引是唯一的。

InnoDB

InnoDB支持表级锁与行级锁，支持事务，MVCC版本控制，是默认的搜索引擎。是聚簇索引。

InnoDB主键索引.png

InnoDB主键中存放了所有数据，是聚簇索引。并且InnoDB是默认按照主键进行聚集的，所以必须要设置主键。
当没有设置主键时，数据库会搜索唯一的一列自动作为主键，如果每一列都不唯一则在最后新生成一列作为主键。

InnoDB辅助索引.png

当使用辅助索引时，在叶子节点上保存的是主键。因此搜索到主键后还要按照主键索引去查找数据，要经过两次索引。

那你能说说回表是什么吗？

答：回表就是先通过数据库索引找到主键Id，然后再通过主键id再进行一次查找。比如select birthday from user where username = ”小明"，先通过username找到小明的id值，然后通过该id值再主键查询到birthday值。

那怎么解决回表问题呢？
答：使用覆盖索引解决，将需要查找的值放到一个索引中，一次查询就查询到了全部值，因此就不要根据主键再次查找了。比如建立birthday与username的索引。

InnoDB为什么要使用整型自增的主键

因为每一次辅助索引都要经过主键索引，如果主键字段太大的话会占用很大的内存空间。
因为InnoDB底层是一个B+树，当使用自增型的主键插入新记录时会比较容易维护B+树。

索引分类

普通索引：一个索引只包含单个列，一个表可以有多个单列索引。
唯一索引：索引列的值必须唯一，但允许有null值。
联合索引：多列值组成一个索引，专门用于组合搜索。

主键索引与唯一索引差别

1.主键是一种约束，而唯一索引就是一种索引。
2.一张表只有一个主键，但可以有多个唯一索引。
3.主键索引不允许有null值，但唯一索引可以允许有null值。

联合索引最左前缀原则

联合索引需遵循最左前缀原则。建立索引：

ALTER TABLE tableName ADD INDEX ('age','name','sex');

建立以下索引判断索引是否生效

A:select * from student where age = 16 and name = '小张'
B:select * from student where name = '小张' and sex = '男'
C:select * from student where name = '小张' and sex = '男' and age = 18
D:select * from student where age > 20 and name = '小张'
E:select * from student where age != 15 and name = '小张'
F:select * from student where age = 15 and name != '小张'

A遵从最左匹配原则，age是在最左边，所以A走索引；
B直接从name开始，没有遵从最左匹配原则，所以不走索引；
C虽然从name开始，但是有索引最左边的age，mysql内部会自动转成where age = '18' and name = '小张' and sex = '男' 这种，所以还是遵从最左匹配原则；
D这个是因为age>20是范围，范围字段会结束索引对范围后面索引字段的使用，所以只有走了age这个索引；
E这个虽然遵循最左匹配原则，但是不走索引，因为!= 不走索引；
F这个只走age索引，不走name索引，原因如上；

最左前缀原则.png

索引失效的场景

1.使用NOT的情况：！=，NOT IN，NOT EXIST都会导致索引失效。
2.使用or：使用or的字段无论是否存在索引都会全表扫描
3.不能在索引列上使用相关函数：select * from a where a.age + 1 > 16;
4.数据类型不匹配：select * from a where a.age = '1';age类型为整型，不能用字符串。
5.使用like模糊查询时，在模糊查询中%放在前面。
6.当数据量很少时，如果使用全表扫描更快，则不会使用索引。
7.联合索引并没有按照最左前缀原则。

索引优缺点

优点
1.创建索引可以加快查询速度。
2.创建唯一索引可以保证列的唯一性
3.通过索引列对数据进行排序，可以降低排序的成本。
缺点
1.虽然索引加大了数据的查询速度，但是会降低维护表的速度，因为当插入删除数据时都要更新对应的索引。
2.索引也会占用物理空间。

索引的适用场景与不适用场景

适用场景：
默认主键唯一索引
当需要频繁的对某一字段进行查找，可以建立索引
查询中排序的字段建立索引可以大大降低排序消耗
查询中统计或者分组字段
不适用场景：
表中的数据太少
频繁的对表或者字段进行增删改操作

索引优化

1.对于单键索引，选择针对当前query过滤性最好的索引。
2.对于组合索引，把过滤性最好的字段的索引放在最前面
3.对于组合索引，当需要范围查找时应该把该字段的索引放在最后面
4.规范sql语句，避免索引失效。

唯一索引与普通索引

当更新一个数据页时，如果该数据页在内存中时则会直接更新，如果不在数据页时在不影响数据一致性的情况下会写到change buffer中，避免了磁盘读取，当需要用到该数据页时才会从内存与change buffer中获取。
因为唯一索引要判断唯一性，所以就不能使用change buffer，所以其实就普通索引可以使用。
对于写多读少的业务来说，页面在写完以后马上被访问到的概率比较小，此时change buffer的使用效果最好，这种业务模型常见的就是账单类、日志类的系统。反过来，假设一个业务的更新模式是写入之后马上会做查询，那么即使满足了条件，将更新先记录在change buffer，但之后由于马上要访问这个数据页，会立即触发merge过程。这样随机访问IO的次数不会减少，反而增加了change buffer的维护代价，所以，对于这种业务模式来说，change buffer反而起到了副作用。

数据库索引