【MySQL】11|给字符串字段加索引

现在,几乎所有的系统都支持使用邮箱登陆,那么怎样在邮箱这样的字段上创建合理的索引。

假设用户表是这么定义的:

mysql> create table SUser(
ID bigint unsigned primary key,
email varchar(64), 
... 
)engine=innodb;

由于要使用邮箱登陆,所以业务代码中一定会出现类似于这样的语句:

mysql> select f1,f2 from SUser where email='xxx';

1、前缀索引

我们知道,如果email字段没有索引,那么这个语句会做全表扫描。

对于email字段有两种创建索引的方式:

  • 不指定长度,那么索引就会包含整个字符串
mysql> alter table SUser add index index1(email);

  • 定义字符串的一部分作为索引
mysql> alter table SUser add index index2(email(6));

那么,这两种索引在数据结构和存储上有什么区别呢?如下图所示

两种建索引的数据结构和存储示例

从图中可以看到,由于email(6)这个索引结构中每个邮箱字段只取前6个字节,所以占用空间会更小,这是使用前缀索引的优势。

但,缺点是会增加而外的记录扫描次数。

接下来,我们再看看下面这个语句,在这两个索引定义下分别是怎么执行的。

select id,name,email from SUser where email='zhangsun@qq.com';

  • 使用index1,执行顺序如下
  1. 从index1索引树找到满足索引值是zhangsun@qq.com 的这条记录,取得R2的值
  2. 到主键上查找主键值是R2的行,将这行记录加入结果集
  3. 取index1 索引树上刚刚查到的位置的下一条记录,发现已经不满足where 中的条件,循环结束

整个过程中,只需要回主键索引取一次数据,所以系统认为只扫描了一行。

  • 使用index2,执行顺序如下:
  1. 从index2 索引树找到满足索引值是‘zhangs’的记录,找到第一个是R1
  2. 回表查询主键值是R1的行,判断出email的值不是zhangsun@qq.com ,丢弃这行记录
  3. 到index2索引树上取下一条记录,发现仍然是‘zhangs’,再回表查询出R2的行,判断出满足条件,将这行记录加入结果集
  4. 重复上一步,直到在 index2 上取到的值不是‘zhangs’,循环结束

在这个过程中,要回表查4次数据,也就是扫描了4行。

通过对比可以发现,使用前缀索引后,可能会导致查询语句读取数据的次数变多。

但是,对于这个查询语句来说,如果定义的index2不是6位,而是7位,可以做到只查询一次就获得结果。

也就是说使用前缀索引,定义好长度,就可以做到既节省空间,又不用而外增加太多的查询成本。

那么有什么办法能够确定应该使用多长的前缀呢?

实际上,我们建立索引的时关注的是区分度,区分度越高越好。因为区分度越高,意味着重复的键值越少。因此我们可以通过统计索引上又多少个不同的值来判断要使用多长的前缀。

先统计出这个列上有多少个不同的值

select count(distinct email) as L from SUser;

然后,依次选取不同长度的前缀来看这个值,比如我们要看一下4~7个字节的前缀索引

select
    count(distinct left(email,4)) as L4,
    count(distinct left(email,5)) as L5,
    count(distinct left(email,6)) as L6,
    count(distinct left(email,7)) as L7
from SUser;

当然,使用前缀索引很可能会损失区分度,所以需要预先设定一个可以接受的损失比例,比如5%。然后,在返回的 L4~L7中,找出不小于 L*95%的值,选取满足条件的最小长度即可。

前缀索引对覆盖索引的影响

使用前缀索引可能会增加扫描行数,这会影响到性能。其实,前缀索引的影响不止如此,例如如下场景:

select id,email from SUser where email='zhangsun@qq.com';

这个语句只要求返回id和email字段。

如果使用index1的话,可以利用覆盖索引,从index1查到结果后就直接返回了,不需要回表查询。

如果使用index2的话,需要回表查询,不能利用覆盖索引。

也就是说,使用了前缀索引就用不上覆盖索引多查询性能的优化了,在选择是否使用前缀索引时需要考虑。

2、其他方式

对于类似邮箱这样的字段来说,使用前缀索引的效果可能还不错。但是,遇到前缀的区分度不够好的情况时,我们要怎么办呢?

比如,我们的身份证,一共18位,其中前6位是地址码,所以同一个县的人的身份证号前6位一般是相同的。

如果现在正在做的系统是某个市的公民信息系统,这时候使用前缀索引,前6位的区分度就比较低了。

按照我们前面的方法,可能需要创建长度为12位以上的前缀索引,才能够满足区分度要求。

但是,索引选取的越长,占用的磁盘空间就越大,相同的数据页能放下的索引值就越少,搜索的效率也就会越低。

那么对于这种情况,有没有既可以占用更小的空间,也能达到很高的查询效率?

  • 方式1:使用倒序存储

由于身份证号的最后6位没有地址码这样的重复逻辑,所以最后这6位很可能就提供了足够的区分度。

select field_list from t where id_card=reverse('in_id_card')

  • 方式2:使用hash字段

可以在表上再创建一个整数字段,来保存身份证的校验码,同时在这个字段上创建索引

alter table t add id_card_crc int unsigned, add index(id_card_crc);

然后每次插入新记录的时候,都同时用crc32()这个函数得到校验码填到这个新字段。

由于校验码可能存在冲突,也就是说两个不同身份证号通过crc32()函数得到的结果可能是相同的,所以查询语句where部分需要判断id_card的值是否精确相同。

select field_list from t where id_card_crc=crc32('in_id_card') and id_card='in_id_card';

这样,索引的长度就变成了4个字节,比原来小很多。当然hash索引的长度越大,产生的hash碰撞概率就越小。

倒序和hash的异同点

相同点:

  • 都不支持范围查询,只能等值查询

不同点:

  • 占用额外空间,倒序存储方式在主键索引上,不会消耗额外的存储空间,而hash索引需要增加一个字段。当然倒序排序建立索引的长度可能要更长。
  • cpu消耗方面,倒序索引的reverse比hash索引crc32的CPU资源消耗要小点
  • 查询效率,使用hash索引相对性能更稳定一些。倒序索引的冲突概率要高一些

在实际应用中,需要根据业务字段的特点选择使用哪种方式。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,651评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,468评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,931评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,218评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,234评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,198评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,084评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,926评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,341评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,563评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,731评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,430评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,036评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,676评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,829评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,743评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,629评论 2 354

推荐阅读更多精彩内容