数据库索引和磁盘的关系大揭秘

一、序言
二、磁盘结构
三、磁盘中数据存储
四、索引在磁盘中的存储
五、二级索引

一、序言

都说加索引能加快查询的速度,其实通过索引本质上是减少磁盘的读取次数,到底索引和磁盘的关系是怎样的呢?


二、磁盘结构

首先我们先了解一下操作系统是怎么从磁盘中读取数据的,操作系统通常是以页为单位从磁盘中读取数据,磁盘可以理解为一个圆盘,每个圆盘上有若干磁道。

比如下面的图有4种不同颜色的磁道,每条磁道上每个半圆代表一个扇区,也就是一条磁道在这里被划分为4个扇区。

1.jpg

操作系统从磁盘中读取数据时,也是按页(扇区)来读取,读取一块数据,我们称之为1个block块。

不同硬盘每个扇区的存储容量不一样。

  • 机械硬盘:每个扇区为512B。
  • 固态硬盘(SSD):page大小为4KB。

备注:为什么要以页为单位从磁盘读取数据呢?
如果每次只查询1条记录,由于磁盘检索速度比较慢,会有一定的性能消耗。但如果每次读一页数据,会减少磁盘读取的次数。


三、磁盘中数据存储

假设有一张用户表,表中共有用户ID、用户名、密码、头像、备注5个字段,字段长度如下:


2.jpg

根据字段长度定义,一条记录的大小为128字节,而机械硬盘一个扇区最多能存储512字节,也就说是一次扇区扫描最多能读取4条记录。

我们把从磁盘扇区读取的数据称之为1个block

  • 一个block可以存储512 / 128 = 4条记录
  • 100条记录则需要100 / 4 = 25个block

也就是说读取user_id为100的记录最多需要访问25个block,也就是25次磁盘查询。

如果说要读取user_id为1000的记录,则最多需要进行250次的磁盘查询,如果数据量更大呢?这个时候索引的作用就出来了。

四、索引在磁盘中的存储

上面的例子中,数据量越大,磁盘查询的的次数也就越多,我们可以做一个优化,对user_id列加上索引。

3.png

上面我们说了假设该用户表1条记录占128字节,1个block可以存放512 / 128 = 4条记录。

现在对user_id列加上索引,该索引会保存该列的数据和数据指针(指向数据所在的磁盘扇区)。

假设数据指针为6字节,那么一条索引将占用该列长度10 + 6 = 16字节,1个block(512字节)可以存放512 / 16 = 32条索引记录。100条索引记录需要占用100 / 32 = 4个block。

上面说了100条数据记录需要占用100 / 4 = 25个block。以这100条数据为例,我们用4个block存索引数据,25个block存储列数据。

这个时候读取user_id为100个记录,我们先扫描索引,最多读取4个block就可以找到该数据所在磁盘扇区,再经过1次磁盘查询就可以找到该数据,也就是说最多经过5次磁盘查询。

如果是读取user_id为1000的记录,最多读取32个block索引数据加上1个block列数据,也就是33次磁盘查询就能找到。

而且内存访问比磁盘快,因为索引数据比较小,我们完全可以将索引数据加载到内存,这样访问会更快。

备注:InnoDB中索引数据和列数据在同一个(.ibd)文件,而索引数据总是在文件的最前面,查询数据时先扫描索引。


五、二级索引

问题又来了,如果数据量越来越大,变成10w条,100w条,就算建立10w条,100w条索引,速度还是会越来越慢,该怎么办呢?

我们可以针对索引再见索引,什么意思呢?


4.jpg

上面说了,1000条数据需要构建32个索引block,如果我们以32为单位,只存32条二级索引记录,再次构建二级索引,则只需要1个索引block。(二级索引只存放user_id值为32及其倍数的数据)

以这1000条数据为例,我们用1个block存二级索引数据,32个block存1级索引数据,250个block存列数据。

这个时候如果读取user_id为1000的记录,只需要读取1个二级索引block,1个一级索引块,再经过1次磁盘查询就能找到,也就是最多3次磁盘查询。

当然,随着数据量越来越大,二级索引数据也会越来越大,为了更好理解,我们将它转换为树的形式,是不是觉得很熟悉。


5.jpg

当然实际索引数据结构,像B+树等多路平衡树会更加复杂,这个我们后面再分享。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,233评论 6 495
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,357评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,831评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,313评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,417评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,470评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,482评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,265评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,708评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,997评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,176评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,503评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,150评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,391评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,034评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,063评论 2 352

推荐阅读更多精彩内容