MySQL 索引学习笔记

所在文集:数据库


本文的内容参考了:

索引的作用:空间换时间,加快查询的速度。

select * from student where name = 'Tom'
  • name 字段没有索引:full table scan
  • name 字段有索引:减少scan的数目

索引的创建:基于某一列创建,由某一列上的数据组成。

create index <index_name> on students(name)

详细的语法:

CREATE [UNIQUE|FULLTEXT|SPATIAL] INDEX index_name
[index_type]
ON tbl_name (index_col_name,...)
[index_option]
[algorithm_option | lock_option] ...

  • index_type: USING {BTREE | HASH}
  • index_col_name: col_name [(length)] [ASC | DESC]
  • 如果是CHAR,VARCHAR类型,length可以小于字段实际长度
  • 如果是BLOB和TEXT类型,必须指定 length
  • index_option: KEY_BLOCK_SIZE [=] value
    | index_type
    | WITH PARSER parser_name
    | COMMENT 'string'
  • algorithm_option: ALGORITHM [=] {DEFAULT|INPLACE|COPY}
  • lock_option: LOCK [=] {DEFAULT|NONE|SHARED|EXCLUSIVE}

索引的数据结构

Hash 表

  • 数组结构:key 为列的值,value 为该行在数据库表的位置,在数组中的位置由 key 的哈希值确定。
  • 优点:查找、插入、修改、删除的时间复杂度为 O(1)
  • 缺点:无序,对于范围的查找不行,例如 select * from students where age < 30
  • InnoDB 并不支持哈希索引

B 树

  • 数组结构:参见 多路搜索树 & B 树 & B+树 学习笔记
  • 查找、插入、修改、删除的时间复杂度为 O(logN)
  • 过程:select * from students where name='Tom',在 B- 树中找到值为 Tom 的结点,时间复杂度为 O(logN),得到 Tom 对应的行在数据库表中的位置。

**B树被作为实现索引的数据结构被创造出来,是因为它能够完美的利用“局部性原理”:

  • 内存读写块,磁盘读写慢,而且慢很多;
  • 磁盘预读:磁盘读写并不是按需读取,而是按页预读,一次会读一页的数据,每次加载更多的数据,如果未来要读取的数据就在这一页中,可以避免未来的磁盘 IO,提高效率;
  • 局部性原理:软件设计要尽量遵循 “数据读取集中” 与 “使用到一个数据,大概率会使用其附近的数据”,这样磁盘预读能充分提高磁盘IO;

B树为何适合做索引?

  • 由于是 m 分叉的,高度能够大大降低;
  • 每个节点可以存储多个记录,如果将节点大小设置为页大小,例如 4K,能够充分的利用预读的特性,极大减少磁盘 IO;

B+树

  • 数组结构:参见 多路搜索树 & B 树 & B+树 学习笔记
  • 查找、插入、修改、删除的时间复杂度为 O(logN)
  • 非叶子节点不再存储数据,数据只存储在同一层的叶子节点上;
  • 叶子之间,增加了链表,获取所有节点,不再需要中序遍历;

B+ 树比 B 树有更优的特性:

  • 范围查找,定位 min 与 max 之后,中间叶子节点,就是结果集,不用中序回溯;(这是因为在 B+ 树中叶子之间,增加了链表,获取所有节点,不再需要中序遍历)
  • 叶子节点存储实际记录行,记录行相对比较紧密的存储,适合大数据量磁盘存储;
  • 非叶子节点,不存储实际记录,而只存储记录的 key 的话,那么在相同内存的情况下,B+ 树能够存储更多索引;

问题:哈希(hash)比树(tree)更快,索引结构为什么要设计成树型?
索引设计成树形,和 SQL 的需求相关。对于这样一个单行查询的 SQL 需求:
select * from students where name='Tom'
确实是哈希索引更快,因为每次都只查询一条记录。
但是对于排序查询的 SQL 需求,例如:

  • 分组:group by
  • 排序:order by
  • 比较:<、>

哈希型的索引,时间复杂度会退化为 O(n),而树型的“有序”特性,依然能够保持 O(logN) 的高效率。


索引的一些注意事项

有的情况下即使定义了索引也不会使用:

where name != 'Tom'
where name <> 'Tom'
where name not in ('Tom', 'Lily')
where name like '%To%' // %出现在最左边,无法进行比较

联合索引 Composite Index:

create index <index_name> on students(name, age, address)

对于联合索引,只有符合最左前缀的查询才会被优化:

where name = 'Tom'  // 优化
where name = 'Tom' and age = '12'  // 优化
where age = '12'  // 不优化
where age = '12' and address='Shanghai'  // 不优化

前缀索引:
假设 students 表包括 first_namelast_name

  • 若只对 last_name 建立索引,则 last_name (姓)的选择性太低。
  • 若对 first_namelast_name 建立联合索引,则索引太长,导致插入/更新/删除 数据行时维护索引的时间较长。
  • 因此可以对 first_name 取前缀:create <index_name> on students(last_name, left(first_name, 3))

不需要建立索引的情况:

  • 表中行数少
  • 某一列的选择性 selectivity 较低。例如 性别 gender 列只有 M 和 F 两种值,则无需对该列建立索引。

一些注意事项:

  • 索引不能为空。因此任何包含 null 值的列都不会包含在索引中,即使显示地对该列建立索引也不会提高性能。
  • 连接列不会使用索引:
select * from students where first_name = 'San' and last_name = 'Zhang'; // 推荐使用
select * from students where first_name || last_name = 'San Zhang'; // 不推荐使用
  • %like 语句会降低索引的效率
  • 注意 NOT 的使用
where age != '20' // 不推荐使用
where age < '20' or age > '20' // 推荐使用

MyISAM 与 InnoDB 的索引差异

数据库的索引分为:

  • 主键索引(Primary Index)
  • 普通索引(Secondary Index)

MyISAM 的索引

MyISAM 的索引与行记录是分开存储的,叫做非聚集索引(UnClustered Index)。

其主键索引与普通索引没有本质差异:

  • 有连续聚集的区域单独存储行记录
  • 主键索引的 B+ 树叶子节点,存储主键,与对应行记录的指针
  • 普通索引的 B+ 树叶子结点,存储索引列,与对应行记录的指针
  • 主键索引与普通索引是两棵独立的索引 B+ 树,通过索引列查找时,先定位到 B+ 树的叶子节点,再通过指针定位到行记录。

MyISAM 的表可以没有主键。

InnoDB 的索引

InnoDB 的主键索引与行记录是存储在一起的,故叫做聚集索引(Clustered Index)。

  • 没有单独区域存储行记录
  • 主键索引的 B+ 树叶子节点,存储主键,与对应行记录(而不是指针)
  • 普通索引的 B+ 树叶子结点,存储索引列,与对应行记录的指针

因此,InnoDB 的主键查询是非常快的,因为主键索引的 B+ 树和行记录是在一起存储的。

InnoDB 的表必须要有聚集索引:

  • 如果表定义了主键,则主键就是聚集索引;
  • 如果表没有定义主键,则第一个非空 unique 列是聚集索引;
  • 否则,InnoDB 会创建一个隐藏的 row-id 作为聚集索引;

聚集索引,也只能够有一个,因为数据行在物理磁盘上只能有一份聚集存储。

InnoDB 的普通索引可以有多个,它与聚集索引是不同的:普通索引的叶子节点,存储主键(也不是指针)

举个例子

有一个数据表 t(id PK, name KEY, sex, flag); 有如下数据:

1, shenjian, m, A
3, zhangsan, m, A
5, lisi, m, A
9, wangwu, f, B

可以看出 id 是主键索引(Primary Index),name 是普通索引(Secondary Index)。

如果采用 MyISAM,索引和行记录的结构如下,可以看出:

  • 行记录单独存储
  • id 为 PK,有一棵 id 的索引树,叶子指向行记录
  • name 为 KEY,有一棵 name 的索引树,叶子也指向行记录

如果采用 InnoDB,索引和行记录的结构如下,可以看出:

  • id 为 PK,行记录和 id 索引树存储在一起
  • name 为 KEY,有一棵 name 的索引树,叶子存储 id

当:select * from t where name=‘lisi’; 时,会先通过 name 辅助索引定位到普通索引 B+ 树的叶子节点得到 id=5,再通过聚集索引(即主键索引)定位到行记录。所以,其实扫了2遍索引树:


引用:
MySQL 官网
数据库索引,到底是什么做的?
1分钟了解MyISAM与InnoDB的索引差异

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,386评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,142评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,704评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,702评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,716评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,573评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,314评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,230评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,680评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,873评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,991评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,706评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,329评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,910评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,038评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,158评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,941评论 2 355

推荐阅读更多精彩内容