B+树索引学习

Microsoft SQL Server 2012 Internals 第7章索引学习

现在主流数据库都是采用B+树作为索引结构

B-tree 中的 B 是 balanced 的意思,B+树是一颗平衡树,所谓平衡是指树的高度是稳定的(随着插入,删除,更新会不停的调整树的结构来保证树的平衡)。为什么要保证平衡??因为平衡树有稳定的高度,稳定的高度意味着每次查询都是稳定的(从根结点到叶子结点的路径高度是一样的)

B+树的定义很复杂,定义理解清楚都不容易。为什么定义的这么复杂?主要是为了保证树的平衡和树的高度比较小。一颗高度比较小的平衡树具有稳定的查询效率,作为索引再合适不过了。

别说这么多,你能写出B+树的代码吗???sorry 我连定义都理解的不是很清楚,怎么可能写出B+树! 不过我们还是从概念上来理解一下B+树索引,理解概念和想法是很重要的。

b-tree index pages.png

上面每一个白页代表一个索引页,所有的数据都存放在叶子结点,且叶子结点按 index key (索引建) 从小到大的顺序排列,中间用指针连起来(方便范围查询,找到第一个接着往后找就行)。中间结点只存储索引指针,不存储数据行。如果数据量很少一个页就能存下呢???这时只有叶子结点,只有一个页。

B+树索引是怎么建立的呢???最开始可以从叶子结点开始一层一层往上建立的。之后再插入,删除时就从root往叶子结点查找调整了。

看第一个例子: 假设有一个表有100,0000行,每一行占用4000字节,那么我一个Page里面最多存2行(Sqlserver 的一个Page是8k),光存储叶子结点就需要50,0000(1000000 / 2)个 Page。 假设每个中间结点的指针占用 900 字节, 则每一页最多能存 8 个中间结点(8,096 / 900 )。Level1 层就需要 62,500 个Page才能存的下(50,0000 / 8)。

demo1.png

如上图所示,一层一层的往上推算总共需要7层。按键值查找时会从root page(根)开始往下查找,直到叶子结点。因为每个Page都是存在磁盘上的,如果树高为4,就至少需要4次IO才能找到要查找数据所在的Page,再在Page内找到所需的数据(可以二分查找,因为数据是按键值排序的)。Root Page 的地址一般都是固定的,所以可以方便的找到Root page 的地址。

注意B+树索引的是每一个Page,不是单独的行。每一个Page里面包含很多个行。找到一个Page后还要在Page里面遍历找到要查找数据行。因为每一个Page都很小(一般8K或16K)Page内部查找就很快了。
为什么不索引每一行???其实也可以索引每一行,这就是Dense index(稠密索引)和 Sparse index(稀疏索引)的区别。你可以为每一行都建立一个Hash 索引(类比HashMap)但这样可能索引会很大,占用空间太多,索引一般都用稀疏索引只索引Page。

例子2:上面假设中间的索引键占用900字节,现在减小索引键的大小,假设每个中间的索引键占用20字节,则每页就能存404行(8096 / 20)

demo2.png

所以现在只需要4层,且在引入下一层索引之前可增加 130,878,528 行 (the maximum possible number of rows is 404404404*2—or 131,878,528—minus the number of rows that already exist: 1 million) 。看 root page(Level3) 可存 404 个中间结点,但现在只存了4个。
可见一个4层的B+树就可以索引 131 million (1亿3100万)行数据。现在查询一个叶子结点中的一行数据,总共需要做 4次 IO。

clustered index (聚集索引):是指索引键的排列顺序和数据行的物理存储顺序是一致的。一个表只能有一个聚集索引。

none clustered index: (非聚集索引): 相对于聚集索引而言的。

Sqlserver 的 聚集索引的数据是存储在叶子结点中的,找到叶子结点就找到了数据行。非聚集索引的叶子结点中除了存储索引键外还会存储聚集索引的键值,所以非聚集索引根据键值找到要查找的键值后,如果还需要其他列的数据必须要用聚集索引的键值再去查找数据(数据都在聚集索引的叶子结点中)。这个一般叫做 bookmark (书签) 查找。如果表没有定义聚集索引而是一个 Heap ,(Heap 就是表上没有聚集索引,就是说行是没有什么顺序的,一行可以存在一个表的任意位置)。这时叶子结点存储的是行地址,根据行地址再去取该行的数据。

covering index:( 覆盖索引): 聚集索引的叶子结点中存储的是数据行,找到叶子结点就查找到了数据。非聚集索引的叶子结点存储的是索引键值和该行聚集索引的键值(如果有的话),如果需要其它列的数据,还要拿聚集索引的键值再去查找。 覆盖索引是说对于非聚集索引,叶子结点除了存储聚集索引的键值外还可以适当存储一些其它列的值,这样可以加快个别列的查询效率,因为已经包含(覆盖)了这些列的数据,不需要再进行 bookmark 查找了。sqslserver 中可通过 INCLUDE 指令添加一些需要覆盖的列。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,287评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,346评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,277评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,132评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,147评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,106评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,019评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,862评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,301评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,521评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,682评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,405评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,996评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,651评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,803评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,674评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,563评论 2 352