一、简介
什么是索引?
Mysql官方定义:索引(index)是帮助Mysql高效获取数据的 排好序 的 数据结构 。
简单来说,可以理解为:索引是数据结构。为什么要使用索引?
MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度。打个比方,如果合理的设计且使用索引的MySQL是一辆兰博基尼的话,那么没有设计和使用索引的MySQL就是一个人力三轮车。
二、索引的数据类型
上面介绍索引知道了索引就是数据结构,那么,我们都知道,数据结构有:hash表,二叉树,红黑树,B-Tree,B+树等
例如有如下表数据:
col1 | col2 |
---|---|
1 | 34 |
2 | 77 |
3 | 5 |
4 | 91 |
5 | 22 |
6 | 89 |
7 | 23 |
那么有一条sql查询语句:
select * from table where col2 = 89;
二叉树
那么使用二叉树查询如下(col2创建索引的情况下):
根据二叉树的类型(右边节点的值大于父节点的值)可以推论,从根节点 34 开始,需要进行两次的磁盘I/O操作,就可以查询到二叉树的key和value,key存的是89这个值,value是“0x77”,也就是该条数据所对应的磁盘文件指针。然后再根据磁盘指针“0x77”,可以查找到该行 col1=6,col2=89所对应的数据结果。
如果说col2的值比较大,表数据又比较多,那可能就需要N次磁盘I/O操作才能查询到数据,效率比较低。
再比如:把col1增加索引,col1为自增列的情况下,
select * from table where col1 = 6;
那么二叉树的结果为:
因为是自增列,所以右边节点的值会一直大于父节点,最终变成这样的单边增长树。那么在执行上面的sql查询语句,会经过6次磁盘I/0操作。
所以二叉树不适合mysql的索引数据结构。
红黑树
同样的,把col1增加索引,col1为自增列的情况下,
select * from table where col1 = 6;
那么红黑树的结果为:
从图中可以看出来,需要三次操作就能找到 col1=6的节点。由于数据量比较少,所以查询比较快。如果有几十上百万的数据,那么就容易造成树的节点比较深,导致树的高度不可控,
所以红黑树不适合mysql的索引数据结构。
B+树
在mysql中,索引用到的是 B+树
,B+Tree的高度是可控的,mysql通常是3到5层。注意:B+Tree只在最末端叶子节点存数据,叶子节点是以双向链表的形势互相指向的。
使用B+树结构存储的优点:
- 非叶子节点不存储data,只存储索引(冗余),可以放更多的索引
- 叶子节点包含所有索引字段
- 叶子节点用指针连接,提高区间访问的性能
b+树性质
- 索引字段要尽量的小
我们知道I/O次数取决于b+数的高度h,假设当前数据表的数据为N,每个磁盘块的数据项的数量是m,则有h=㏒(m+1)N,当数据量N一定的情况下,m越大,h越小;而m = 磁盘块的大小 / 数据项的大小,磁盘块的大小也就是一个数据页的大小,是固定的,如果数据项占的空间越小,数据项的数量越多,树的高度越低。这就是为什么每个数据项,即索引字段要尽量的小,比如int占4字节,要比bigint8字节少一半。这也是为什么b+树要求把真实的数据放到叶子节点而不是内层节点,一旦放到内层节点,磁盘块的数据项会大幅度下降,导致树增高。当数据项等于1时将会退化成线性表。
- 索引的最左匹配特性(即从左往右匹配)
当b+树的数据项是复合的数据结构,比如(name,age,sex)的时候,b+数是按照从左到右的顺序来建立搜索树的,比如当(张三,20,F)这样的数据来检索的时候,b+树会优先比较name来确定下一步的所搜方向,如果name相同再依次比较age和sex,最后得到检索的数据;但当(20,F)这样的没有name的数据来的时候,b+树就不知道下一步该查哪个节点,因为建立搜索树的时候name就是第一个比较因子,必须要先根据name来搜索才能知道下一步去哪里查询。比如当(张三,F)这样的数据来检索时,b+树可以用name来指定搜索方向,但下一个字段age的缺失,所以只能把名字等于张三的数据都找到,然后再匹配性别是F的数据了, 这个是非常重要的性质,即索引的最左匹配特性。
hash
在mysql中,创建索引,也可以使用hash表,
mysql会对hash索引创建一个hash值对应的表,每一个索引字段对应一个hash值
如果在查询语句执行的时候,
select * from table where col2 = 49;
索引为hash索引,则mysql会对sql语句进行优化,mysql底层自己的hash算法,所以hash索引查询会非常快,速度会比BTree还快。
select * from table where col2 = hash(49);
hash特点:
- 哈希索引只包含哈希码和指针,不存储数据字段值
- 哈希索引数据并不是按循序存储的,因此无法用于排序
- 因为要通过查询值计算确定的哈希码,所以哈希索引不支持部分匹配,不支持范围查找,只支持等值比较查询
- 当哈希冲突很多的时候,效率会降低
基于以上特点,所以mysql中最常见的索引,都使用的是B+树
索引。
三、索引的优缺点
- 优点:可以快速检索,减少I/O次数,加快检索速度;根据索引分组和排序,可以加快分组和排序;
- 缺点:索引本身也是表,因此会占用存储空间,一般来说,索引表占用的空间的数据表的1.5倍;索引表的维护和创建需要时间成本,这个成本随着数据量增大而增大;构建索引会降低数据表的修改操作(删除,添加,修改)的效率,因为在修改数据表的同时还需要修改索引表;