面试的时候遇到HashMap的实现原理,数组+链表+红黑树,这个大部分人都知道
问题来了,什么时候会链表转红黑树,什么时候红黑树会转链表
看一下jdk1.8的HashMap源码
注意到其实就是,大于等于7的时候转树,和小于等于6的时候转链表
那么为什么是这两个数呢?先要说一下查找的平均长度
链表就是顺序查找,红黑树可以看作就是标准的二叉树,适合二分查找
顺序查找
对于n个数,每个数字查找概率相等,那么有 推导:(1+2+3+4+5+n )/n =(n+1)*n/2n=(n+1)/2
二分查找,假设是满二叉树, n与d(树高)的关系, 有公式: n = (2^d) - 1
1+2*2+3*4+4*8....d*2的d-1次方
d=log(n+1)
对于高度为2,总结点数是3的二叉排序树(满二叉树),查找成功的平均查找长度为:
ASL = (1*1 + 2*2) / 3
对于高度为3,总结点数是7的二叉排序树(满二叉树),查找成功的平均查找长度为:
ASL = (1*1 + 2*2 + 3*4) / 7
对于高度为h,总结点数是n的二叉排序树(满二叉树),查找成功的平均查找长度为:
ASL = ( 1*1 + 2*2 + 3*4 + ... + h*2^(h-1) ) / n [等式1]
对于[等式1]里的1*1 + 2*2 + 3*4 + ... + h*2^(h-1)
该数列有h项: 1*2^0, 2*2^1, 3*2^2, ... , h*2^(h-1)
其总和:
S = 1*2^0 + 2*2^1 + 3*2^2 + ... + h*2^(h-1) [等式2]
等式两边同乘以2,有:
2*S = 1*2^1 + 2*2^2 + 3*2^3 + ... + (h-1)*2^(h-1) + h*2^h [等式3]
用[等式3]减去[等式2]有:
S = h*2^h - (2^0 + 2^1 + 2^2 + 2^3 + ... + 2(h-1)) [等式4]
其中(2^0 + 2^1 + 2^2 + 2^3 + ... + 2^(h-1))是等比数列求和,设:
M = (2^0 + 2^1 + 2^2 + 2^3 + ... + 2^(h-1))
等式两边同乘以2,有: 2*M = (2^1 + 2^2 + 2^3 + ... + 2^h)
两个等式相减,有: M = 2^h - 1
将M代入[等式4]有:
S = h * 2^h - (2^h - 1) = (h-1) * 2^h + 1 [等式5]
因为 h = log2(n+1),将h代入[等式5],有:
S = [ log2(n+1) - 1 ] * 2^[log2(n+1)] + 1
= [ log2(n+1) - 1 ] * (n+1) + 1
= (n+1) * log2(n+1) - n
也就是
S = ( 1*1 + 2*2 + 3*4 + ... + h*2^(h-1) ) = (n+1) * log2(n+1) - n
将上述S代入[等式1],有:
ASL = [(n+1) * log2(n+1) - n] / n
= [(n+1)/n] * log2(n+1) - 1
ASL = [(n+1)/n] * log2(n+1) - 1 [公式1]
其时间复杂度是: O(log2(n))
用图来表示
所以,任意大于1的自然数的情况下,二叉树的查找长度均小于顺序查找
那么为什么hashmap 要<=6的情况下,转链表 >=7的情况下转红黑树?(只能是这么感觉底层开发人员用的公式是这样的log(n)/log(2)+1,至于为什么是这样,暂时没搞清楚。。难道是单纯的bug吗?)