一.索引的优缺点
二.索引的分类
三.索引的底层结构(BTree和B+Tree)
四.索引的使用策略
下面主要针对mysql的索引原理与实现。首先索引是一个排序的列表,在这个列表中存放着索引的值和对应数据行的物理地址。当数据量十分大的时候,利用索引可以加快对数据的查找,使用索引后可以不用扫描全表来定位某行的数据,而是先通过索引表找到该行数据对应的物理地址然后访问相应的数据。
一.索引的优缺点
优点:加快对数据的查找速度,减少IO操作。
缺点:索引本身也是表,需要占用磁盘空间,一般来说,索引表占用的空间的数据表的1.5倍;索引表的维护和创建需要时间成本,这个成本随着数据量增大而增大;构建索引会降低数据表的修改操作(删除,添加,修改)的效率,因为在修改数据表的同时还需要修改索引表。
二.索引的分类
1.从存储结构上来划分:B-Tree索引,B+Tree索引,BTree索引,hash索引,全文索引
2.从应用上来划分:普通索引,唯一索引,复合索引
3.根据数据的物理顺序和键值的逻辑(索引)顺序关系来划分:聚集索引和非聚集索引
三.索引的底层结构
mysql支持多种存储引擎,像InnoDB,MyIsAM。一般都有的底层结构是BTree和B+Tree,这次也重点说这两种结构。
BTree:
BTree的每一个节点,不管是叶子结点还是非叶子结点既存储key值,也存储data。这一点是与B+Tree不一样的。由于不管是叶子结点还是非叶子节点,都要存储数据,这就导致了非叶子节点中能存储的指针数就会变少,指针少的情况下要保存大量数据,只能增加树的高度,导致IO操作变多,查询性能变低。
B+Tree:
我们发现,B+Tree结构中非叶子节点是不存储数据的,只有叶子结点存储数据,这样一来B+Tree就可以存储更多的key值,树的高度就越小,IO的次数就会少,读取的速度就会很快。此时B+Tree的优点就很明显了,磁盘读写的代价就越低,读取速度也是很稳定。
现在很多都对B+Tree做了优化,添加了指向相邻叶子结点的指针,形成了带有顺序访问指针的B+Tree,这样做是为了提高区间的查找效率,只要找到第一个值那么就可以顺序的查找后面的值。
四.索引的使用策略
什么时候要使用索引?
1.主键自动建立唯一索引;
2.经常作为查询条件在WHERE或者ORDER BY 语句中出现的列要建立索引;
3.作为排序的列要建立索引;
4.查询中与其他表关联的字段,外键关系建立索引
5.高并发条件下倾向组合索引;
6.用于聚合函数的列可以建立索引,例如使用了max(column_1)或者count(column_1)时的column_1就需要建立索引
什么时候不要使用索引?
1.经常增删改的列不要建立索引;
2.有大量重复的列不建立索引;
知道了mysql索引的底层结构之后,再来看一下具体的存储引擎是怎么实现索引的,mysql的两种存储引擎InnoDB,MyIsAM分别实现了聚簇索引和非聚簇索引。
聚簇索引:索引的顺序就是数据的物理存储顺序
非聚簇索引:索引顺序与数据物理排列顺序无关,数据表和索引表都是分开存储的,叶子结点的key值对应的data值是数据在数据表中的物理地址,它数据的排列顺序并不等于索引的顺序。