1.为什么引入B树
二叉搜索树的时间复杂度是O(logN),在算法以及逻辑上来分析,二叉搜索树的查找速度以及数据比较次数都是较小的。但是数据量是远大于内存大小的,那我们在查找数据时并不能将全部数据同时加载至内存。只能分块的加载数据至内存进行查找与比较。
例如:在图1所示的树中查找10,树中的每个节点代表一个磁盘块。每次访问一个新节点代表一次磁盘IO。
要找到值为10需要进行4次查询,可以看出,磁盘IO次数与树的高度相关,在最坏情况下,磁盘IO次数等于树的高度。由于磁盘IO过程是相对耗时效率较低的,因此,在设计数据存储结构时需要降低树的高度,即将一棵“瘦高”的树变得“矮胖”。
当数据数目相同,在保持有序前提下,降低树高度,只需将节点中存储的key值增加,即二叉搜索树中每个节点只有一个key,现将一个节点中存储多个key,得到的树即为B树。
2.定义
B树是一颗多路平衡查找树。我们描述一颗B树时需要指定它的阶数,阶数表示了一个结点最多有多少个孩子结点,一般用字母m表示阶数。当m取2时,就是我们常见的二叉搜索树,m为3时是2-3树。
一颗m阶的B树定义如下:
(1)每个结点最多有m-1个关键字。
(2)根结点最少可以只有1个关键字。
(3)非根结点至少有Math.ceil(m/2)-1个关键字。Math.ceil(m/2)含义是向上取整。例如Math.ceil(4.5) = 5。
(4)每个结点中的关键字都按照从小到大的顺序排列,每个关键字的左子树中的所有关键字都小于它,而右子树中的所有关键字都大于它。
(5)所有叶子结点都位于同一层,或者说根结点到每个叶子结点的长度都相同。
3.查找
B树是对二叉树功能的拓展,查找过程与二叉树类似。
4.插入
B树的插入流程如下:
(1)根据要插入的key的值,对B树执行查找操作,查找到待插入数据的当前节点位置。
(2)判断当前结点key的个数是否小于等于m-1,若满足,则结束直接插入数据,否则,进行第(3)步。
(3)以结点中间的key为中心分裂成左右两部分,然后将这个中间的key插入到父结点中,这个key的左子树指向分裂后的左半部分,
这个key的右子支指向分裂后的右半部分,然后将当前结点指向父结点,继续进行第(3)步。
下面以5阶B树为例,介绍B树的插入操作,在5阶B树中,结点最多有4个key,最少有2个key。
插入图解:
5.删除
B树的删除流程如下:
(1)如果当前需要删除的key位于非叶子结点上,则用后继key(这里的后继key均指后继记录的意思)覆盖要删除的key,然后在后继key所在的子支中删除该后继key。此时后继key一定位于叶子结点上,这个过程和二叉搜索树删除结点的方式类似。删除这个记录后执行第2步
(2)该结点key个数大于等于Math.ceil(m/2)-1,结束删除操作,否则执行第(3)步。
(3)如果兄弟结点key个数大于Math.ceil(m/2)-1,则父结点中的key下移到该结点,兄弟结点中的一个key上移,删除操作结束。否则,将父结点中的key下移与当前结点及它的兄弟结点中的key合并,形成一个新的结点。原父结点中的key的两个孩子指针就变成了一个孩子指针,指向这个新结点。然后当前结点的指针指向父结点,重复第(2)步。
删除图解:
6.应用场景
B树大量应用在数据库和文件系统当中。