数据库基础3: 索引一

索引的目的就是为了提高查询效率

索引常见模型

哈希表

一种以键-值存储数据的结构
优点:

  • 插入速度快
    缺点:
  • 哈希索引做区间查询的速度很慢
    结论:
  • 这种结构适用于只有等值查询的场景,比如memcached及其他一些NoSql引擎

有序数组

有序的数组结构
优点:

  • 等值查询(二分查找)和范围查询场景中性能优秀
    缺点:
  • 插入速度慢、成本高
    结论:
  • 这种结构适用于静态存储引擎

搜索树

一种节点的左儿子小于父节点,父节点又小于右儿子的结构
优点:

  • 查询、更新效率高,为O(log(N))
    缺点:
  • 索引不止在内存中,还要写在磁盘上。二叉搜索树的索引层次高,会产生高成本的磁盘IO。
    结论
  • 为了让一个查询尽量少地读磁盘,必须让查询过程访问经量少的数据库(尽量少的进行磁盘IO)。一般用N叉树,InnoDB的N在1200左右。

N叉搜索树由于在读写上的性能优点,以及适配磁盘的访问模式,已经被广泛应用在数据库引擎中了。

其他模型

  • 跳表
  • LSM树

InnoDB的索引模型

在 InnoDB 中,表都是根据主键顺序以索引的形式存放的,这种存储方式的表称为索引组织表。又因为前面我们提到的,InnoDB 使用了 B+ 树索引模型,所以数据都是存储在 B+ 树中的。

InnoDB索引组织结构

图中左边为主键索引,右边为非主键索引

  • 主键索引的叶子节点存的是整行数据。在InnoDB里也被成为聚簇索引
  • 非主键索引的叶子结点存的是主键的值。在InnoDB里也被称为二级索引

这里引入一个问题:基于主键索引和普通索引的查询有什么区别?
1 如果语句是 select * from T where ID=500,即主键查询方式,则只需要搜索 ID 这棵 B+ 树;
2 如果语句是 select * from T where k=5,即普通索引查询方式,则需要先搜索 k 索引树,得到 ID 的值为 500,再到 ID 索引树搜索一次。这个过程称为回表。

结论:基于非主键索引的查询需要多扫描一棵索引树。因此,我们在应用中应该尽量使用主键查询。

索引维护

  • B+树为了维护索引有序性,在插入新值时需要做必要的维护。增加数据可能会出现页分裂。删除数据可能出现分裂过程的逆过程。
    这里引入另一个问题:哪些场景下应该使用自增主键,而哪些场景下不应该
    1 自增主键的插入数据模式,正符合了我们前面提到的递增插入的场景。每次插入一条新记录,都是追加操作,都不涉及到挪动其他记录,也不会触发叶子节点的分裂。
    2 没有其他索引时,使用业务的唯一字段作为主键。

显然,主键长度越小,普通索引的叶子节点就越小,普通索引占用的空间也就越小.

面试

1.“N叉树”的N值在MySQL中是可以被人工调整的么?

  • 通过改变key值来调整
    N叉树中非叶子节点存放的是索引信息,索引包含Key和Point指针。Point指针固定为6个字节,假如Key为10个字节,那么单个索引就是16个字节。如果B+树中页大小为16K,那么一个页就可以存储1024个索引,此时N就等于1024。我们通过改变Key的大小,就可以改变N的值
  • 改变页的大小
    页越大,一页存放的索引就越多,N就越大。

2.innodb B+树主键索引的叶子节点存的是什么

  • B+树的叶子节点是page (页),一个页里面可以存多个行
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。