B树(B-树)
B树又名平衡多路二叉树,和平衡二叉树的区别在于:
子数节点数不同:平衡二叉树每个节点最多有两个节点,而M阶B树代表每个节点最多可以有M个子树
每个节点包含的数据量不同:平衡二叉树每个节点最多包含一个关键字(当前节点)代表的值和两个孩子(左右)指针。而对于B树(M阶),一个节点可以最多拥有M-1个关键字,M个链表指针。对于B树的每个中间节点有
k
-1个关键字(数字数据)和k
个子数(k
介于阶数M和M/2之间,M/2向上取整)。叶子节点的分布不同: B树的所有叶子节点都在同一层,并且叶子节点只有关键字,指向孩子的指针都为null.
B树的满足条件
- 若根结点不是终端结点,则至少有2棵树。
- 除根结点外所有的非叶子结点都至少有M/2课子树,至多M个子树(关键字数目=子数数目-1)。
- 所有叶子节点都位于同一层。
正是由于这些限制(如何证明?),使得B树能够实现动态平衡。
B树的每个节点可以表示的信息更多,因此整个树更加的"矮胖",这在从磁盘中查找数据(先读取到内存、后查找)的过程中,可以减少磁盘 IO 的次数,从而提升查找速度。
比较浅的根据博客总结了B树的特点。
总结完B+树后进行对比分析
B+树
B+树是基于B-树的一种变体,有着比B-树更高的查询性能。
B+树的满足条件
节点的子树数目和关键字数目相同(而B树是子树数目-1)
节点的关键字(叫做索引)表示的是子树中的最大数据,在子树中同样含有这个数据。
叶子节点包含了全部的数据,同时符号从左到右,从小到大的顺序,并用指针连接在一起。
简要解释:
第一点,B+树中,节点的每一个关键字代表一个子树的最大值,因此子结点数目等于关键字数目。第二点,叶子节点包含了全部的数据,并按照顺序排列,B+树使用链表将他们连起来,这样在查询时效率更快。
B+树对比B树
1.层级更低(更加矮胖),IO次数更少。由于 B+ 树的中间节点不含有实际数据,只有子树的最大数据和子树指针,因此磁盘页中可以容纳更多节点元素,也就是说同样数据情况下,B+ 树会 B 树更加“矮胖”,因此查询效率更快。
2.每次都需要查询到叶子节点,查询性能稳定。B树这时就能体现出优势,由于出现频率较高的树,在B树中往往在上层(非叶子结点),查找到该结点就会成功并结束查询,相对较快。而B+树由于非叶子结点关键字只是代表索引,因此在B+树中,无论查找成功与否,都是走了一条从根到叶子节点的路径。
3.B+树范围查询更加方便。 需要查询某个范围内的数据时,由于 B+ 树的叶子节点是一个有序链表,只需在叶子节点上遍历即可,不用像 B 树那样挨个中序遍历比较大小。