索引概述
索引即key
在存储引擎层实现,不同引擎工作方式不同
索引优化--最好的查询优化手段,可提效几个数量级
两步查找数据:
磁盘查找索引节点(页),将其调入内存;
内存内业内查找数据
一. 索引类型
B-Tree
Hash
R-Tree空间数据索引
全文索引
1. B-tree索引
- 支持引擎:InnoDB,MyISAM,Memory
- 所有叶子值顺序存储,且到root高度一样
- InnoDB,MyISAM B-tree工作方式异同:
InnoDB按原格式存储数据,MYISAM用前缀压缩技术
InnoDB用主键key索引数据行,MyISAM用物理位置索引数据行
- 加速:存储引擎从root节点扫描,代替全表扫描
- 叶节点指针-->被索引数据(data record)
1)B-Tree适用场景
1 全值匹配查询
所有列都匹配
2 最左前缀匹配
组合索引第一列
3 列前缀匹配
某列值开头
4 范围值匹配
5 一列精确一列范围匹配
6 覆盖索引查询
只访问索引即可取data,无须访问数据行
7 Order by排序
?
2) B-Tree不适用场景
- 非最左列
- 跳列
A C
- 某列进行范围查询,其右边所有列无法再用索引
2. Hash索引
- 访问哈希索引的数据很快
f(key)=slot
1) 支持引擎
Memory,NDB集群
2) 适用场景
索引全列匹配
3) 不适用场景
- 不能从索引直接取data
哈希索引=哈希值+行指针,不存储字段值
- 不能用于排序
哈希值有序,但索引数据无序
- 不支持部分索引列匹配
- 不支持范围查询
仅支持等值匹配 =,<=>,IN()
<=> NULL安全等于----操作数可为NULL
4) InnoDB自适应Hash索引
某些索引值被引用很频繁,InnoDB自动在内存B-Tree索引上创建一个Hash索引
用户无法控制和配置,但可关闭
5) 自定义hash索引
存储引擎不支持时,模拟创建hash
如何创建?
B-tree上创建伪hash索引
- 仍在Btree上查找,但用hash索引值代替原Key(伪hash)
- 须在where指定hash函数,不要用MD5(),SHA1()
select id from url
where url="www.mysql.com"
and
url_crc=CRC32("www.mysql.com")
其中urc_crc列为索引列
6) 处理Hash冲突
使用hash索引查询时,须在where指定常量
select id from url
where
url_crc=CRC32("www.mysql.com")
and
url="www.mysql.com"
select word,crc from words
where
crc=CRC32("gnu")
and
word="gnu"
@birthday problem
In probability theory, the birthday problem or birthday paradox concerns the
probability that,
in a set of {\displaystyle n} n randomly chosen people, some pair of them will have the same birthday.
By the pigeonhole principle, the probability reaches 100% when the number of people reaches 367 (since there are only 366 possible birthdays, including February 29). However, 99.9% probability is reached with just 70 people, and 50% probability with 23 people.
3. 空间数据索引 R-Tree
支持引擎:MyISAM
用作地理数据存储,如美团,滴滴定位服务
任意维度组合查询
须使用GIS函数维护数据,MySQL做的不好
4. 全文索引
- 查找文本关键字,非比较索引键值
- 类似搜索引擎
- 相同列创建全文索引和B-Tree索引,不冲突
5. 其他索引
第三方引擎TokuDB
二. 索引好处
1. 好处
1) 减少扫描数据量
2) 避免排序和临时表
3) 随机IO转为顺序IO
2. 索引三星评价
评价索引是否适合某查询
第一星
索引将相关data行放到一起
第二星
索引的data行按查询所需顺序排序
第三星
索引含 查询全部列
三 .高性能索引策略
1. 独立的列
独立
索引列非表达式子式,或函数参数
两个错误:
1)索引列为表达式
select id from actor
where id + 1 = 5
2)
select ...
where
TO_DAYS(Current_DATE) - TO_DAYS(date_col) <= 10;
2. 前缀索引和索引选择性
1) 前缀索引
很长字符串,可索引开始的部分字符串
适用场景
BLOB,TEXT,很长的VARCHAR列
2) 优缺点
优点
节约索引空间
缺点
无法使用之做order by,Group by
无法使用做覆盖索引
3) 索引选择性
=不重复索引值/数据表记录总数
- 不重复索引值<-->基数<-->cardinality
- 记录总数<-->#T
- 取值范围 [1/#T ,1]
- 越高越好
选择性越高,过滤掉的行越多
4) 如何找到 前缀索引长度
思想
足够长(接近完整列),又不能太长(节约空间)
方法1 试验法
先算完整列频次,然后一个一个前缀试验
计算完整列频次
试验前3前缀
方法2 计算完整列选择性
使前缀选择性接近完整列选择性
5) 如何创建前缀索引
ALTER TABLE sakila
ADD KEY(city(7));
KEY(city(7))
3. 多列索引
1) 常见错误
每个列都创建单独索引,导致索引合并
create table t(
c1 int,
c2 int,
KEY(c1),
KEY(c2)
);
2) 索引合并表示索引建的不好,待优化
- 多个索引相交(AND)不如组合索引好
- 多个索引联合(OR)耗费CPU和内存资源
- 优化器不计算(耗费CPU和内存资源)到查询成本中
4. 选择合适的索引列顺序
仅适用于BTree索引(按顺序存储数据)
Btree索引按从左到右顺序,依次扫描
索引可按升、降序扫描,满足Order by,Group by,Distinct
如何选择合适的索引列顺序
经验法则
无order by和Group by时,选择性最高的列放在前面
select * from payment
where staff_id=2 and customer_id=584;
key(staff_id,customer_id)还是key(customer_id,staff_id)?
5. 聚簇索引(clustered index)
InnoDB支持,MyISAM为非聚簇
聚簇
数据行,键值存储在一起
一个表只能有一个聚簇索引
聚簇特点
- InnoDB通过主键聚集数据
主键未定义,用唯一非空索引聚集
无唯一非空索引,则隐式定义主键
- 只聚集同一页面记录
聚簇优点
- 相关数据保存在一起,如电子邮件(用户ID和全部邮件)
- 数据访问更快(索引和数据都在BTree中)
- 覆盖索引查询直接取页节点键值
聚簇缺点
数据全放内存时无优势(访问顺序不再重要)
插入速度依赖于插入顺序
InnoDB按主键顺序插入最快(否则插入后用optimize table优化表)
更新聚簇索引列代价很高
强制将每个更新行移动到新位置
页分裂问题
插入新行或,主键更新导致需移动行时
全表扫描慢
二级索引需两次索引查找
二级索引(secondary index,辅助索引)
叶节点保存行主键值,非指向data行的物理记录的指针
二级索引查找行步骤
- 叶子节点找到主键值
- 在聚簇索引找数据行
1 . InnoDB和MyISAM数据分布对比
InnoDB数据分布
InnoDB就是表,不用再像Myisam用单独列存储
聚簇索引叶子节点包含:
主键值
事物ID
回滚指针(用于事物和MVCC)
其他剩余列
聚簇和非聚簇表对比
2. InnoDB表按主键顺序插入行
无数据聚集,使用AUTO INCREMENT作为主键--保证按顺序写入
避免使用UUID(universal unique identifier)聚簇索引--导致插入变得随机
6. 覆盖索引
索引直接包含所需查询数据行,不需要回记录表(数据表)
只能用BTree做覆盖索引
支持InnoDB,myisam
Explain显示 Extra:Using index
覆盖索引优点
- 索引条目小于数据行,减少了数据访问量
- 范围查询IO少(索引列值顺序存储)
- 对InnoDB表(聚簇索引)特别有用
二级主键能覆盖查询可避免对主键索引的二次查询
MyISAM覆盖索引可能会导致系统问题
MyISAM引擎内存只缓存索引,数据由OS缓存
ICP索引条件推送(index condition pushdown)
MySQL5.6开始支持
条件过滤推到存储引擎层完成,减少IO访问
7. 用索引扫描做排序
MySQL生成有序结果的两种方式
- 排序
- 按顺序扫描索引
Exlain Type:Using index
为何索引扫描比全表扫描慢?
如果索引不能覆盖查询全部列,则每扫一条索引记录必须回表(随机IO)
同一索引,既满足排序,又满足查找是最好的
何时能用索引进行排序?
- 索引列序和order by顺序一致时
- 且所有列排序方向一样
不能使用索引进行排序的场景
- order by出现不同排序方向
- order by引用非索引列
- where和order by中的列无法组合为最左前缀
- where第一列是范围条件
- where出现IN(多个相等条件视为范围)
8. 压缩(前缀压缩)索引
MyISAM使用
减少索引大小(1/10磁盘空间)让更多索引进入内存
默认只压缩字符串,也可设置整数
只能从头开始扫描,无法二分
随机扫描导致适用于IO密集型(OLTP),不适用CPU密集型(OLAP)?
index1:perform
index2:performance-->7,ance
9. 冗余和重复索引
应删除重复索引
1) 重复索引
相同列创建多个索引
三个重复索引--unique,primary限制均通过索引实现
2) 冗余索引
应该删除冗余索引
两种冗余
已有key(A,B),再建key(A)
ID为主键,扩展索引为(A,ID)
建议
尽量扩展现有索引,而不是创建新索引,那样会导致冗余索引
10.删除未使用的索引
percona Toolkit--
pt-index-usage工具
11. 索引和锁
InnoDB存储引擎层完成条件过滤时(ICP--MySQL 5.6及以后),索引可减少访问行数,从而减少加锁数量
否则全表扫描并锁住所有行
覆盖索引失效:
- InnoDB二级索引上用共享(读)锁,访问主键索引需要排他(写)锁
-
select for update比lock in share mode或非锁定查询慢
四. 索引和表维护
维护表三目的
找到并修复损坏的表
维护准确的索引统计信息
减少碎片
1. 找到并修复表
1) MyISAM表
check table--检查表
repair table--修复损坏的表
2) InnoDB表使用no-op ALTER
Alter TABLE innodb_tb ENGINE=INNODB;
2. 维护索引统计信息
优化器有时用索引统计信息估算扫描行数
ANALYZE TABLE更新统计信息避免错误
memory引擎不存储统计信息
MyISAM引擎存储统计信息在磁盘
Show Index from table查看索引基数(cardinality,索引列不同取值个数)
触发索引统计信息更新的三种情形
SHOW TABLE STATUS
SHOW INDEX
打开某些INFORMATION_SCHEMA表
3.减少索引和数据碎片
1)BTree索引会碎片化,降低查询效率
BTree随机访问是必须的,因为从root节点随机磁盘访问才能定位到叶子节点
2)三种数据碎片
行碎片
数据行存储在多个地方多个碎片中
行间碎片
逻辑上顺序的页或行,在磁盘上非顺序存储
剩余空间碎片
数据页中有大量不用的空余空间
MyISAM三种碎片都有,InnoDB无小碎片
3)如何消除碎片?
- OPTIMIZE TABLE
- ALTER TABLE tb ENGINE=<engine>;
- 删除所有索引-->重建表 -->重建索引
五. 总结
索引三原则
1.单行访问很慢
最好一个数据块读取多行
2. 按顺序访问范围行很快
- 顺序IO无需多次磁盘寻道,比随机IO快很多
- 服务器按顺序读取数据,则不需要额外排序
3. 索引覆盖查询很快
避免了大量单行访问
2017-4-10 sz