- 什么是索引?
索引是存储引擎用于快速找到记录的一种数据结构,也就是说索引是种数据结构。
在MySQL中,索引是在存储引擎层而不是在服务器层实现的,所以不同的存储引擎的索引的工作方式也是不一样的。
- 建立索引的目的? 提高查找效率,索引就是类比字典的作用!
- 为什么可以提高查询效率 ?
可以简单理解为排好序且快速查找的数据结构,也就是说会影响where后面的查找,以及order by后面的排序;
我们知道,在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这种数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构的基础上实现高级查找算法;其实简单理解起来也就类似于编程语言中的new对象,=右边才是实体,而=号左边只是指针引用。
索引的数据结构是基于B-Tree的,意味着所有的值都是按顺序存储的,并且每一个叶子页到根的距离相同;而且B-Tree索引能够加快访问数据的速度,因为存储引擎不再需要进行全表扫描来获取需要的数据,取而代之的是从索引的根节点进行搜索。根节点的槽中存放了指向子节点的指针,存储引擎根据这些指针向下层查找。通过比较节点页的值和要查找的值可以找到合适的指针进入下层子节点,这些指针实际上定义了子节点页中值的上限和下限,最终存储引擎要么是找到对应的值,要么该记录不存在。叶子节点比较特别,他们的指针指向的是被索引的数据,而不是其他的节点页。 - 建立索引的优势和劣势
1.优势:提高数据检索的效率,降低数据库的IO,至于原因我们会在后面展开,通过索引列对数据进行排序,降低数据排序的成本,降低了CPU的消耗;索引还大大减少了服务器需要扫描的数据量,索引可以帮助服务器减少服务器避免排序和临时表,而且索引可以将随机I/O变为顺序I/O。
2.劣势:虽然索引大大提高了查询速度,同时却会降低更新表的速度,比如对表进行insert,update和delete操作,因为更新表时,mysql不仅保存数据,还要保存一下索引文件,每次添加了索引列的字段,都会调整更新所带来的键值变化后的索引信息;索引只是提高效率的一个因素,如果你的Mysql有大数据量的表,就需要花时间建立最优秀的索引,或者优化查询,或者分表,分库等等操作。 - 索引的分类(建议:一个表最多建的索引不超过5个)
1.单值索引:即一个索引只包含一个列,一个表可以有多个单列索引
2.唯一索引:索引列的值必须唯一,但允许有空值;
3.复合索引:即一个索引包含多个列; - 相关的命令
1.创建索引
2.删除索引create [unique] index idxName on tableName (columnName(length)); alter tableName add [unique] index idxName on (columnName(length));
3.查看索引drop index idxName on tableName;
show index from tableName\G;
- 何种情况下适合创建索引?
1.主键自动建立唯一索引;
2.频繁作为查询条件的字段应该建立索引;
3.查询中与其他表关联的字段,外键关系建立索引;
4.频繁更新的字段不适合建立索引,因为每次更新不单单是更新了记录还会更新索引文件数据记录,也就是二叉树的节点数据。
5.where条件里用不到的字段不适合创建索引;
6.单值/复合索引的选择问题?在高并发下倾向于创建组合索引;
7.查询中排序的字段,排序字段若通过索引去访问将大大提高排序速度;
8.查询中统计或者分组的字段; - 何种情况下不适合创建索引?
1.表记录太少(mysql起码300w的数据吧);
2.经常增删改的表;
3.数据重复且分布平均的表字段,因此应该只为经常查询和最经常排序的数据建立索引。注意:如果某个数据列包含许多重复的内容,为它建立索引就没有太大的实际效果。比如: 假如一个表有10w行记录,有一个字段A只有true和false两种值,且每个值得分布概率大约为50%,那么对这种字段建索引一般不会提高查询效率的。
索引的选择性是指索引列中不同值的数目与表中记录数的比,如果一个表中有2000条记录,表索引列有1980个不同的值,那么这个索引的选择性就是1980/2000=0.99。一个索引的选择性越接近于1,这个索引的效率越高。