java1.8 HashMap 源码分析

jdk1.8 HashMap 的数据结构是数组+链表+红黑树,因为HashMap不是线程安全的,所以暂时不需要考虑多线程操作。

看HashMap源码前,考虑几个问题:
1、数组初始容量多大,最大容量多大
2、如何计算Hash值,如何尽量避免Hash冲突
3、数组如何扩容,扩容之后原数组的内容如何copy
4、链表到多大后才转成红黑树,如果红黑树小于一定数量会不会再变回链表
5、为啥允许空key ? 在哪里怎么实现的?
为了描述方便下文中:数组中每个节点简称为桶

1、HashMap 初始化

1、定义:
静态字段:默认值
实例字段:存储数组,元素数量,扩容阀值,迭代工具
2、构造函数
初始化 loadFactor 负载因子默认 DEFAULT_LOAD_FACTOR (0.75)
3、计算扩容阀门

注意:这里没有创建数组

 /* ---------------- Static 默认值-------------- */
//默认数组大小  16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4
//最大数组容量 1073741824
static final int MAXIMUM_CAPACITY = 1 << 30;
//负载因子
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//数组中链表转红黑树的阀值
static final int TREEIFY_THRESHOLD = 8;
//数组中红黑树转回链表的阀值
static final int UNTREEIFY_THRESHOLD = 6;
//当数组中链表长度大于转红黑树的阀值,数组长度必须大于此值才可以转红黑树
static final int MIN_TREEIFY_CAPACITY = 64;
 /* ---------------- Fields  每个HashMap 实例都有特有的值-------------- */
//这个最重要:即所谓的Hash数组
transient Node<K,V>[] table;
//当调用 entrySet() 是返回一个 EntrySet 引用指向所有 Map.Entry<K,V> (Node)
transient Set<Map.Entry<K,V>> entrySet;
//元素数量
transient int size;
//modCount用于记录HashMap的修改次数,在 put(),get(),remove(),Interator()等方法中,都使用了该属性
transient int modCount;
 //扩容阀值
int threshold;
//负载因子
final float loadFactor;
 /* ---------------- 从 AbstractMap 继承过来的------------- */
//Set 的 Iterator 是调用 entrySet() 返回一个 EntrySet.iterator() 即 EntryIterator
//Set 的 Iterator.next() 等同于 EntryIterator.next().getKey()
transient Set<K>        keySet;
//和 keySet 原理一样
//Collection 的 Iterator.next() 等同于 EntryIterator.next().getValue()
transient Collection<V> values;

public HashMap() {
    this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}
public HashMap(int initialCapacity) {
    this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
public HashMap(int initialCapacity, float loadFactor) {
    if (initialCapacity < 0)
        throw new IllegalArgumentException("Illegal initial capacity: " +
                                           initialCapacity);
    if (initialCapacity > MAXIMUM_CAPACITY)
        initialCapacity = MAXIMUM_CAPACITY;
    //NaN = 0.0f / 0.0f;
    if (loadFactor <= 0 || Float.isNaN(loadFactor))
        throw new IllegalArgumentException("Illegal load factor: " +
                                           loadFactor);
    this.loadFactor = loadFactor;
    this.threshold = tableSizeFor(initialCapacity);
}
(1)、计算扩容阀值 tableSizeFor(initialCapacity)

计算扩容阀值 tableSizeFor(initialCapacity) 看到这里有许多同学可能感到奇怪,因为入参 initialCapacity 参数英文含义是初始容量,正常理解应该是 Hash 数组容量,但是这里规格化后赋值给了 threshold 扩容阀值,扩容阈值应该等于 initialCapacity * DEFAULT_LOAD_FACTOR(0.75) 呀? 别急请看下文。

这个规格化函数也是比较有意思的。
例如:入参二进制数 100010111
看如下代码

//入参 cap = 100010111
static final int tableSizeFor(int cap) {
    //n= 100010110
    int n = cap - 1;
    // n >>> 1 = 010001011   n = 100010110 | 010001011  = 110011111  保证前2位是1
    n |= n >>> 1;
    // n >>> 2 = 001100111   n = 110011111 | 001100111  = 111111111 保证前4位是1
    n |= n >>> 2;
    //n >>> 4 = 000011111    n = 111111111 | 000011111 = 111111111 保证前8位是1
    n |= n >>> 4;
    //n >>> 8 = 000000001    n = 111111111 | 000000001 = 111111111 保证前16位是1
    n |= n >>> 8;
    //n >>> 16 = 000000000  n = 111111111 | 000000000 = 111111111 保证前32位是1 int 最大就32位所以结束
    n |= n >>> 16;
    //这里判断最大容量,然后将第一步减掉的 1 这里加回来
    //111111111 + 1 = 1000000000  最高位是1其他位都是 0 必然是 2 的倍数,而且还是最接近入参的 2 的倍数
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

此处可以继续提出问题:上边看到数组长度规格化为 2 的幂次方数,为什么?有什么好处

注意:至此初始化已经结束了,但是还没有创建数组,因为创建数组这个消耗动作延迟到了,真正添加值的时候了。

2、put() 方法
public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}   

在这里我们看到了最想看到的计算 Hash 值的方法

2.1、获取 key 的 hashCode

hashCode 方法是 object 类中的方法,如果子类不覆盖,那么会调用native 方法,返回值 int 二进制 32 位。并且高16 位与自己的低16位做异或运算---相同为0不同为1,因为这样可以减少一些 hash 冲突。

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

看一下数组下标的计算方法

//n 为当前数组的大小
n = tab.length
// 将(数组的长度-1)和 hash 值进行按位与操作:
i = (n - 1) & hash
(1)为啥用数组长度n - 1 & hash 确定下标呢? 而不是常用的方法 n % hash。

数组长度是 2 的幂次方,所以数组长度 n 的二进制表示形式的最高有效位是1,其他位都是零。

例如:
8 二进制 : 1000 , 8-1 =7 二进制 111
16 二进制 :10000 ,16-1 = 15 二进制 1111
32 二进制: 100000 ,32-1 = 31 二进制 11111

因为 & 位运算符,参与运算的两个位都为 1 才是 1,否则为0,所以 111(7) & 任何数相当于截取二进制中的三位。肯定小于等于 111(7)。所以HashMap用这种方式代替了 n % hash ,效率高很多。

(2)为啥 (h = key.hashCode()) ^ (h >>> 16) 这样计算Hash,为什么不直接用 hashCode() 的返回值呢?

假设:hashCode() 返回十进制int 数 h=45880 ,hash数组长度位 n =16

image.png

根据上图的演算发现:
(1)HashCode 中有多少位参与定位数组下标的运算,由数组的长度决定的。因为本例中数组长度为 16 位所以参与运算的 hash 值的二进制位数为四位。
(2)如果直接拿 HashCode 计算下标 ,那么不管高位是什么,只有后四位参与了数组下标的定位的运算之中,冲突的概率相对较高。
(3)如果按照 (h = key.hashCode()) ^ (h >>> 16) 方式计算数组下标,高16位的后四位,和低16位的后四位都可以参与数组下表的定位的运算之中,冲突概率相对低一些。

注意:0-16 位二进制正整数,最大可以表示十进制 65535 。
如果 hashCode 方法返回值小于 65535 那么意味着 (h = key.hashCode()) ^ (h >>> 16) 和 key.hashCode() 相等,所以只有hashCode 大于 65535 的值此计算才有效

(3)为啥允许空key ?在哪里怎么实现的?

这里可以回答了,因为 hash 方法 (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16) 这里返回了 0 , 0 & 数组长度-1。都等于0,所以hash数组的第一个位置会存放 key 为 null 的元素。

2.2 数组长度n为啥是 2 的幂次方数
1、因为计算数组下标方法 n - 1 & hash 运算后得到的结果随机且均匀的分布到数组中。上文已经讲过了。

假设一个不是 2 的幂次方数,13 二进制为 1101,
(1101 - 1)& hash = 1100 & hash
计算结果:可能是 100,1000,1100 只能是这三种。
可想而知这种算法肯定不合格,用二的幂次方 - 1 & hash 运算会存在更多的可能性。

2、避免扩容时重复计算数组中的位置

在扩容时,扩容之后数组长度是原数组长度的两倍,因为原数组是 2 的幂次方,所以扩容后同样为 2 的幂次方。

假设原数组长度为 8 扩容后数组长度为 16
8 二进制 : 1000 , 8-1 =7 二进制 111
16 二进制 :10000 ,16-1 = 15 二进制 1111

因为扩容时数据要从原数组迁移到新数组

假设原数组内有数据 13 二进制为 1101
在原数组的位置是 1101 & 111 = 101 等于十进制的 5

在新数组的位置是 1101 & 1111= 1101 等于十进制的 13

根据例子可以观察出,新数组的位置有两种可能

  • 和原数组的位置相等
  • 原数组位置(101) + 1000 等于十进制 13。1000 这个值,可以由新数组长度16除2得到。

那如何区分这两种情况呢,其实很简单,就是判断 hash 值中新的参与确定下标计算的位是否是零即可,hash & (新数组长度<<1) 如果等于 0 那么数组位置不变,否则将原数组位置加上新数组长度除2得到。

2.3 putVal 方法

1、如果 hash 数组为空,即第一次添加key,value 那么初始化数组
2、计算数组下标 i = (n - 1) & hash 如果下标对应的数组值为空,那么直接创建节点并且放入到数组中
3、处理 hash 冲突的情况
4、累计 size
5、扩容

  final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        //数组是否为空
        if ((tab = table) == null || (n = tab.length) == 0)
            //复用扩容方法此处的含义是创建数组
            n = (tab = resize()).length;
        //是否存在 hash 冲突
        if ((p = tab[i = (n - 1) & hash]) == null)
            //创建节点 并且放入数组
            tab[i] = newNode(hash, key, value, null);
        else { 
            / 处理 hash 冲突的情况
            ............
        }
        ++modCount;
        //超过阀值扩容
        if (++size > threshold)
            resize();
        //给客户一个,插入成功的扩展点
        afterNodeInsertion(evict);
        return null;
    }
(1) 处理 hash 冲突的情况

1、入参和头节点的 key.hash 值,key.equals 是否相同。
2、如果hash 冲突的位置已经是红黑树了,那么插入树节点
3、否则从链表位部插入节点
4、如果超过阈值转红黑树
5、将key的hash值相同,并且 equals 也相同,的value替换成新value,然后将旧 value 返回

Node<K,V> e; K k;
//入参和头节点的 key.hash值,key.equals 是否相同
if (p.hash == hash &&
    ((k = p.key) == key || (key != null && key.equals(k))))
    e = p;
//头节点是否是树节点
else if (p instanceof TreeNode)
    e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
    //遍历链表
    for (int binCount = 0; ; ++binCount) {
        //是否到链表尾部
        if ((e = p.next) == null) {
            //创建链表并且插入到链表尾部
            p.next = newNode(hash, key, value, null);
            //是否超过了链表转红黑树的阀值,应为从0开始所以减1
            if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                //转红黑树
                treeifyBin(tab, hash);
            break;
        }
        //如果 key.hash 值,key.equals 相同
        if (e.hash == hash &&
            ((k = e.key) == key || (key != null && key.equals(k))))
            break;
        p = e;
    }
}
//处理 key.hash 值且 key.equals 相同的数据
if (e != null) { // existing mapping for key
    V oldValue = e.value;
    if (!onlyIfAbsent || oldValue == null)
        e.value = value;
    //如果重复添加数据,触发客户端定义的方法
    afterNodeAccess(e);
    return oldValue;
}
(2) 转红黑树 treeifyBin(tab, hash) 方法

1、如果数组长度小于 64 MIN_TREEIFY_CAPACITY 那么不进行树化,而是直接进行扩容
2、将单向链表转化成 TreeNode ,然后将 TreeNode 连接成双向链表
3、将 TreeNode 树化成,红黑树

final void treeifyBin(Node<K,V>[] tab, int hash) {
    int n, index; Node<K,V> e;
    //如果数组长度小于 64 MIN_TREEIFY_CAPACITY 那么不进行树
    if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
        //扩容
        resize();
    else if ((e = tab[index = (n - 1) & hash]) != null) {
        TreeNode<K,V> hd = null, tl = null;
        do {
            //循环将 Node 转换成 TreeNode
            TreeNode<K,V> p = replacementTreeNode(e, null);
            //将 TreeNode 连接成双向链表
            if (tl == null)
                hd = p;
            else {
                p.prev = tl;
                tl.next = p;
            }
            tl = p;
        } while ((e = e.next) != null);
        //转红黑树
        if ((tab[index] = hd) != null)
            hd.treeify(tab);
    }
}

关于红黑树的操作,下次讲。
这里可以考虑一下为啥将 TreeNode 连接成双向链表

(3) 扩容 resize 方法

1、根据情况计算新数组 newCap 长度。newThr 扩容阀
(1)老数组没有创建过,即第一次put 那么获取初始化的参数
(2)老数组创建过,那么根据老数组长度、扩容阈值计算新数组的newCap 长度。newThr 扩容阀值。
2、创建新数组
3、数据迁移
(1)如果老数组节点中只有一个值,即不存在hash冲突,计算数组中的位置然后,直接放入新数组
(2)老数组节点,是树节点,对树节点迁移,这个下个章将
(3)老数组节点,是链表节点,迁移链表

final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    //旧数组的长度。 因为这里有第一次添加 key,value 需要新创建数组的情况
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    //旧数组的扩容阈值。 如果第一此创建数组 threshold 等于数组长度
    int oldThr = threshold;
    //newCap 新数组长度,newThr 新数组扩容阀值
    int newCap, newThr = 0;
    //如果老数组已经创建过
    if (oldCap > 0) {
        //数组长度最大值校验
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        //新数组长度=老数组长度 * 2 。 如果新数组长度 < 最大长度限制,那么新数组扩容阈值 = 老数组扩容阈值 * 2 
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            newThr = oldThr << 1; // double threshold
    }
    //老数组没有初始化过, 即 第一次添加值。 初始化数组的相关逻辑
    else if (oldThr > 0) // initial capacity was placed in threshold
        //看到这里就可以解答了: 为啥 HashMap 初始化时候入参 initialCapacity 规格化后赋值给 threshold 
        newCap = oldThr;
    else {               // zero initial threshold signifies using defaults
        //如果没有 扩容阈值 和数组长度,那么用默认的
        newCap = DEFAULT_INITIAL_CAPACITY;
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    //扩容阈值的默认值处理。
    if (newThr == 0) {
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    //实例中保留,新数组扩容阈值的引用
    threshold = newThr;
    //创建新数组
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    //实例中保留,新数组的引用
    table = newTab;
    //如果非第一次添加值
    if (oldTab != null) {
        //遍历老数组
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;
            if ((e = oldTab[j]) != null) {
                //回收老数组值的引用
                oldTab[j] = null;
                //如果老数组节点中只有一个值,即不存在hash冲突
                if (e.next == null)
                    //计算数组中的位置然后迁移
                    newTab[e.hash & (newCap - 1)] = e;
                else if (e instanceof TreeNode) //如果老数组节点,是树节点
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                else { // preserve order  老数组节点为链表节点
                        ..................
                    }
            }
        }
    }
    return newTab;
}
(3) 链表节点,数据迁移

理论知识在上文 “ 数组长度n为啥是 2 的幂次方数” 中讲过了

1、创建4个变量,将位置变化的和位置没变化的节点穿成两条线
(1)loHead , loTail 用于迁移位置没有改变的元素
(2)hiHead , hiTail 用于迁移位置发生变化的元素
2、判断节点的位置是在原位置,还是在新位置。(e.hash & oldCap)
3、将拆分好的链表数据 loHead 和 hiHead 放入到新数组中

//用于迁移位置没有改变的元素
Node<K,V> loHead = null, loTail = null;
// 用于迁移位置发生变化的元素
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
    next = e.next;
    //判断节点的位置,是否发生变化
    if ((e.hash & oldCap) == 0) {
        if (loTail == null)
            loHead = e;
        else
            loTail.next = e;
        loTail = e;
    }
    else {
        if (hiTail == null)
            hiHead = e;
        else
            hiTail.next = e;
        hiTail = e;
    }
} while ((e = next) != null); //循环直到链表结束
//迁移节点位置没有发生过的链表
if (loTail != null) {
    loTail.next = null;
    newTab[j] = loHead;
}
//迁移节点位置发生变化的链表
if (hiTail != null) {
    hiTail.next = null;
    //新位置计算方法 j + oldCap 在上文讲过
    newTab[j + oldCap] = hiHead;
}
(3) 树节点,数据迁移 (即双向链表的数据迁移)

1、和迁移单向链表逻辑差不多
2、维护位置发生变化的,和位置未发生变化的双向链表
3、判断迁移后的树节点的数量是否小于阀值 6,如果小于退化成为普通链表。
4、否则重新构建新的二叉树

//入参 bit 是老数组长度,tab 为新数组,j 为老数组中的节点位置
final void split(HashMap<K,V> map, Node<K,V>[] tab, int index, int bit) {
    TreeNode<K,V> b = this;
    // Relink into lo and hi lists, preserving order
    //用于迁移位置没有改变的元素
    TreeNode<K,V> loHead = null, loTail = null;
    // 用于迁移位置发生变化的元素
    TreeNode<K,V> hiHead = null, hiTail = null;
    int lc = 0, hc = 0;
    //向后循环直到链表结束
    for (TreeNode<K,V> e = b, next; e != null; e = next) {
        next = (TreeNode<K,V>)e.next;
        e.next = null;
        //判断节点的位置,是否发生变化
        if ((e.hash & bit) == 0) {//位置没变化
            //e.prev = loTail 向前指
            //是否第一个位置没发生变化的元素
            if ((e.prev = loTail) == null)
                loHead = e;
            else
                //向后指
                loTail.next = e;
            loTail = e;
            ++lc;
        }
        else {//位置发生变化
            if ((e.prev = hiTail) == null)
                hiHead = e;
            else
                hiTail.next = e;
            hiTail = e;
            ++hc;
        }
    }

    if (loHead != null) {
        //判断树节点的数量是否小于阀值,如果小于退化成为普通链表
        if (lc <= UNTREEIFY_THRESHOLD)
            tab[index] = loHead.untreeify(map);
        else {
            tab[index] = loHead;
            if (hiHead != null) // (else is already treeified)
                loHead.treeify(tab);
        }
    }
    if (hiHead != null) {
        if (hc <= UNTREEIFY_THRESHOLD)
            tab[index + bit] = hiHead.untreeify(map);
        else {
            tab[index + bit] = hiHead;
            if (loHead != null)
                hiHead.treeify(tab);
        }
    }
}

这里可以回答,为啥将 treeNode 构建成双向链表了,因为其中一个原因是,迁移时候方便。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容