java1.8 HashMap 源码分析

jdk1.8 HashMap 的数据结构是数组+链表+红黑树,因为HashMap不是线程安全的，所以暂时不需要考虑多线程操作。

看HashMap源码前，考虑几个问题：
1、数组初始容量多大，最大容量多大
2、如何计算Hash值，如何尽量避免Hash冲突
3、数组如何扩容,扩容之后原数组的内容如何copy
4、链表到多大后才转成红黑树，如果红黑树小于一定数量会不会再变回链表
5、为啥允许空key ? 在哪里怎么实现的？
为了描述方便下文中：数组中每个节点简称为桶

1、HashMap 初始化

1、定义：
静态字段：默认值
实例字段：存储数组，元素数量，扩容阀值，迭代工具
2、构造函数
初始化 loadFactor 负载因子默认 DEFAULT_LOAD_FACTOR （0.75）
3、计算扩容阀门

注意：这里没有创建数组

 /* ---------------- Static 默认值-------------- */
//默认数组大小  16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4
//最大数组容量 1073741824
static final int MAXIMUM_CAPACITY = 1 << 30;
//负载因子
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//数组中链表转红黑树的阀值
static final int TREEIFY_THRESHOLD = 8;
//数组中红黑树转回链表的阀值
static final int UNTREEIFY_THRESHOLD = 6;
//当数组中链表长度大于转红黑树的阀值，数组长度必须大于此值才可以转红黑树
static final int MIN_TREEIFY_CAPACITY = 64;
 /* ---------------- Fields  每个HashMap 实例都有特有的值-------------- */
//这个最重要：即所谓的Hash数组
transient Node<K,V>[] table;
//当调用 entrySet() 是返回一个 EntrySet 引用指向所有 Map.Entry<K,V> （Node）
transient Set<Map.Entry<K,V>> entrySet;
//元素数量
transient int size;
//modCount用于记录HashMap的修改次数,在 put(),get(),remove(),Interator()等方法中,都使用了该属性
transient int modCount;
 //扩容阀值
int threshold;
//负载因子
final float loadFactor;
 /* ---------------- 从 AbstractMap 继承过来的------------- */
//Set 的 Iterator 是调用 entrySet() 返回一个 EntrySet.iterator() 即 EntryIterator
//Set 的 Iterator.next() 等同于 EntryIterator.next().getKey()
transient Set<K>        keySet;
//和 keySet 原理一样
//Collection 的 Iterator.next() 等同于 EntryIterator.next().getValue()
transient Collection<V> values;

public HashMap() {
    this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}
public HashMap(int initialCapacity) {
    this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
public HashMap(int initialCapacity, float loadFactor) {
    if (initialCapacity < 0)
        throw new IllegalArgumentException("Illegal initial capacity: " +
                                           initialCapacity);
    if (initialCapacity > MAXIMUM_CAPACITY)
        initialCapacity = MAXIMUM_CAPACITY;
    //NaN = 0.0f / 0.0f;
    if (loadFactor <= 0 || Float.isNaN(loadFactor))
        throw new IllegalArgumentException("Illegal load factor: " +
                                           loadFactor);
    this.loadFactor = loadFactor;
    this.threshold = tableSizeFor(initialCapacity);
}

(1)、计算扩容阀值 tableSizeFor(initialCapacity)

计算扩容阀值 tableSizeFor(initialCapacity) 看到这里有许多同学可能感到奇怪，因为入参 initialCapacity 参数英文含义是初始容量，正常理解应该是 Hash 数组容量，但是这里规格化后赋值给了 threshold 扩容阀值，扩容阈值应该等于 initialCapacity * DEFAULT_LOAD_FACTOR(0.75) 呀？别急请看下文。

这个规格化函数也是比较有意思的。
例如：入参二进制数 100010111
看如下代码

//入参 cap = 100010111
static final int tableSizeFor(int cap) {
    //n= 100010110
    int n = cap - 1;
    // n >>> 1 = 010001011   n = 100010110 | 010001011  = 110011111  保证前2位是1
    n |= n >>> 1;
    // n >>> 2 = 001100111   n = 110011111 | 001100111  = 111111111 保证前4位是1
    n |= n >>> 2;
    //n >>> 4 = 000011111    n = 111111111 | 000011111 = 111111111 保证前8位是1
    n |= n >>> 4;
    //n >>> 8 = 000000001    n = 111111111 | 000000001 = 111111111 保证前16位是1
    n |= n >>> 8;
    //n >>> 16 = 000000000  n = 111111111 | 000000000 = 111111111 保证前32位是1 int 最大就32位所以结束
    n |= n >>> 16;
    //这里判断最大容量，然后将第一步减掉的 1 这里加回来
    //111111111 + 1 = 1000000000  最高位是1其他位都是 0 必然是 2 的倍数，而且还是最接近入参的 2 的倍数
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

此处可以继续提出问题：上边看到数组长度规格化为 2 的幂次方数，为什么？有什么好处

注意：至此初始化已经结束了,但是还没有创建数组，因为创建数组这个消耗动作延迟到了，真正添加值的时候了。

2、put() 方法

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}

在这里我们看到了最想看到的计算 Hash 值的方法

2.1、获取 key 的 hashCode

hashCode 方法是 object 类中的方法，如果子类不覆盖，那么会调用native 方法，返回值 int 二进制 32 位。并且高16 位与自己的低16位做异或运算---相同为0不同为1，因为这样可以减少一些 hash 冲突。

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

看一下数组下标的计算方法

//n 为当前数组的大小
n = tab.length
// 将(数组的长度-1)和 hash 值进行按位与操作:
i = (n - 1) & hash

（1）为啥用数组长度n - 1 & hash 确定下标呢？而不是常用的方法 n % hash。

数组长度是 2 的幂次方，所以数组长度 n 的二进制表示形式的最高有效位是1，其他位都是零。

例如：
8 二进制 : 1000 , 8-1 =7 二进制 111
16 二进制 :10000 ,16-1 = 15 二进制 1111
32 二进制: 100000 ,32-1 = 31 二进制 11111

因为 & 位运算符，参与运算的两个位都为 1 才是 1，否则为0，所以 111（7） & 任何数相当于截取二进制中的三位。肯定小于等于 111（7）。所以HashMap用这种方式代替了 n % hash ,效率高很多。

（2）为啥 (h = key.hashCode()) ^ (h >>> 16) 这样计算Hash，为什么不直接用 hashCode() 的返回值呢？

假设：hashCode() 返回十进制int 数 h=45880 ，hash数组长度位 n =16

image.png

根据上图的演算发现：
（1）HashCode 中有多少位参与定位数组下标的运算，由数组的长度决定的。因为本例中数组长度为 16 位所以参与运算的 hash 值的二进制位数为四位。
（2）如果直接拿 HashCode 计算下标，那么不管高位是什么，只有后四位参与了数组下标的定位的运算之中，冲突的概率相对较高。
（3）如果按照 (h = key.hashCode()) ^ (h >>> 16) 方式计算数组下标，高16位的后四位，和低16位的后四位都可以参与数组下表的定位的运算之中，冲突概率相对低一些。

注意：0-16 位二进制正整数，最大可以表示十进制 65535 。
如果 hashCode 方法返回值小于 65535 那么意味着 (h = key.hashCode()) ^ (h >>> 16) 和 key.hashCode() 相等，所以只有hashCode 大于 65535 的值此计算才有效

（3）为啥允许空key ？在哪里怎么实现的？

这里可以回答了，因为 hash 方法 (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16) 这里返回了 0 ， 0 & 数组长度-1。都等于0，所以hash数组的第一个位置会存放 key 为 null 的元素。

2.2 数组长度n为啥是 2 的幂次方数

1、因为计算数组下标方法 n - 1 & hash 运算后得到的结果随机且均匀的分布到数组中。上文已经讲过了。

假设一个不是 2 的幂次方数，13 二进制为 1101，
（1101 - 1）& hash = 1100 & hash
计算结果：可能是 100，1000，1100 只能是这三种。
可想而知这种算法肯定不合格，用二的幂次方 - 1 & hash 运算会存在更多的可能性。

2、避免扩容时重复计算数组中的位置

在扩容时，扩容之后数组长度是原数组长度的两倍，因为原数组是 2 的幂次方，所以扩容后同样为 2 的幂次方。

假设原数组长度为 8 扩容后数组长度为 16
8 二进制 : 1000 , 8-1 =7 二进制 111
16 二进制 :10000 ,16-1 = 15 二进制 1111

因为扩容时数据要从原数组迁移到新数组

假设原数组内有数据 13 二进制为 1101
在原数组的位置是 1101 & 111 = 101 等于十进制的 5

在新数组的位置是 1101 & 1111= 1101 等于十进制的 13

根据例子可以观察出，新数组的位置有两种可能

和原数组的位置相等
原数组位置（101） + 1000 等于十进制 13。1000 这个值，可以由新数组长度16除2得到。

那如何区分这两种情况呢，其实很简单，就是判断 hash 值中新的参与确定下标计算的位是否是零即可，hash & (新数组长度<<1) 如果等于 0 那么数组位置不变，否则将原数组位置加上新数组长度除2得到。

2.3 putVal 方法

1、如果 hash 数组为空，即第一次添加key,value 那么初始化数组
2、计算数组下标 i = (n - 1) & hash 如果下标对应的数组值为空，那么直接创建节点并且放入到数组中
3、处理 hash 冲突的情况
4、累计 size
5、扩容

  final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        //数组是否为空
        if ((tab = table) == null || (n = tab.length) == 0)
            //复用扩容方法此处的含义是创建数组
            n = (tab = resize()).length;
        //是否存在 hash 冲突
        if ((p = tab[i = (n - 1) & hash]) == null)
            //创建节点 并且放入数组
            tab[i] = newNode(hash, key, value, null);
        else { 
            / 处理 hash 冲突的情况
            ............
        }
        ++modCount;
        //超过阀值扩容
        if (++size > threshold)
            resize();
        //给客户一个，插入成功的扩展点
        afterNodeInsertion(evict);
        return null;
    }

（1) 处理 hash 冲突的情况

1、入参和头节点的 key.hash 值，key.equals 是否相同。
2、如果hash 冲突的位置已经是红黑树了，那么插入树节点
3、否则从链表位部插入节点
4、如果超过阈值转红黑树
5、将key的hash值相同，并且 equals 也相同，的value替换成新value,然后将旧 value 返回

Node<K,V> e; K k;
//入参和头节点的 key.hash值，key.equals 是否相同
if (p.hash == hash &&
    ((k = p.key) == key || (key != null && key.equals(k))))
    e = p;
//头节点是否是树节点
else if (p instanceof TreeNode)
    e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
    //遍历链表
    for (int binCount = 0; ; ++binCount) {
        //是否到链表尾部
        if ((e = p.next) == null) {
            //创建链表并且插入到链表尾部
            p.next = newNode(hash, key, value, null);
            //是否超过了链表转红黑树的阀值，应为从0开始所以减1
            if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                //转红黑树
                treeifyBin(tab, hash);
            break;
        }
        //如果 key.hash 值，key.equals 相同
        if (e.hash == hash &&
            ((k = e.key) == key || (key != null && key.equals(k))))
            break;
        p = e;
    }
}
//处理 key.hash 值且 key.equals 相同的数据
if (e != null) { // existing mapping for key
    V oldValue = e.value;
    if (!onlyIfAbsent || oldValue == null)
        e.value = value;
    //如果重复添加数据，触发客户端定义的方法
    afterNodeAccess(e);
    return oldValue;
}

（2) 转红黑树 treeifyBin(tab, hash) 方法

1、如果数组长度小于 64 MIN_TREEIFY_CAPACITY 那么不进行树化，而是直接进行扩容
2、将单向链表转化成 TreeNode ，然后将 TreeNode 连接成双向链表
3、将 TreeNode 树化成，红黑树

final void treeifyBin(Node<K,V>[] tab, int hash) {
    int n, index; Node<K,V> e;
    //如果数组长度小于 64 MIN_TREEIFY_CAPACITY 那么不进行树
    if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
        //扩容
        resize();
    else if ((e = tab[index = (n - 1) & hash]) != null) {
        TreeNode<K,V> hd = null, tl = null;
        do {
            //循环将 Node 转换成 TreeNode
            TreeNode<K,V> p = replacementTreeNode(e, null);
            //将 TreeNode 连接成双向链表
            if (tl == null)
                hd = p;
            else {
                p.prev = tl;
                tl.next = p;
            }
            tl = p;
        } while ((e = e.next) != null);
        //转红黑树
        if ((tab[index] = hd) != null)
            hd.treeify(tab);
    }
}

关于红黑树的操作，下次讲。
这里可以考虑一下为啥将 TreeNode 连接成双向链表

（3) 扩容 resize 方法

1、根据情况计算新数组 newCap 长度。newThr 扩容阀
（1）老数组没有创建过，即第一次put 那么获取初始化的参数
（2）老数组创建过，那么根据老数组长度、扩容阈值计算新数组的newCap 长度。newThr 扩容阀值。
2、创建新数组
3、数据迁移
（1）如果老数组节点中只有一个值，即不存在hash冲突，计算数组中的位置然后，直接放入新数组
（2）老数组节点，是树节点，对树节点迁移，这个下个章将
（3）老数组节点，是链表节点，迁移链表

final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    //旧数组的长度。 因为这里有第一次添加 key,value 需要新创建数组的情况
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    //旧数组的扩容阈值。 如果第一此创建数组 threshold 等于数组长度
    int oldThr = threshold;
    //newCap 新数组长度，newThr 新数组扩容阀值
    int newCap, newThr = 0;
    //如果老数组已经创建过
    if (oldCap > 0) {
        //数组长度最大值校验
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        //新数组长度=老数组长度 * 2 。 如果新数组长度 < 最大长度限制，那么新数组扩容阈值 = 老数组扩容阈值 * 2 
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            newThr = oldThr << 1; // double threshold
    }
    //老数组没有初始化过, 即 第一次添加值。 初始化数组的相关逻辑
    else if (oldThr > 0) // initial capacity was placed in threshold
        //看到这里就可以解答了： 为啥 HashMap 初始化时候入参 initialCapacity 规格化后赋值给 threshold 
        newCap = oldThr;
    else {               // zero initial threshold signifies using defaults
        //如果没有 扩容阈值 和数组长度，那么用默认的
        newCap = DEFAULT_INITIAL_CAPACITY;
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    //扩容阈值的默认值处理。
    if (newThr == 0) {
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    //实例中保留，新数组扩容阈值的引用
    threshold = newThr;
    //创建新数组
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    //实例中保留，新数组的引用
    table = newTab;
    //如果非第一次添加值
    if (oldTab != null) {
        //遍历老数组
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;
            if ((e = oldTab[j]) != null) {
                //回收老数组值的引用
                oldTab[j] = null;
                //如果老数组节点中只有一个值，即不存在hash冲突
                if (e.next == null)
                    //计算数组中的位置然后迁移
                    newTab[e.hash & (newCap - 1)] = e;
                else if (e instanceof TreeNode) //如果老数组节点，是树节点
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                else { // preserve order  老数组节点为链表节点
                        ..................
                    }
            }
        }
    }
    return newTab;
}

（3) 链表节点，数据迁移

理论知识在上文 “ 数组长度n为啥是 2 的幂次方数” 中讲过了

1、创建4个变量，将位置变化的和位置没变化的节点穿成两条线
（1）loHead , loTail 用于迁移位置没有改变的元素
（2）hiHead , hiTail 用于迁移位置发生变化的元素
2、判断节点的位置是在原位置，还是在新位置。(e.hash & oldCap)
3、将拆分好的链表数据 loHead 和 hiHead 放入到新数组中

//用于迁移位置没有改变的元素
Node<K,V> loHead = null, loTail = null;
// 用于迁移位置发生变化的元素
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
    next = e.next;
    //判断节点的位置，是否发生变化
    if ((e.hash & oldCap) == 0) {
        if (loTail == null)
            loHead = e;
        else
            loTail.next = e;
        loTail = e;
    }
    else {
        if (hiTail == null)
            hiHead = e;
        else
            hiTail.next = e;
        hiTail = e;
    }
} while ((e = next) != null); //循环直到链表结束
//迁移节点位置没有发生过的链表
if (loTail != null) {
    loTail.next = null;
    newTab[j] = loHead;
}
//迁移节点位置发生变化的链表
if (hiTail != null) {
    hiTail.next = null;
    //新位置计算方法 j + oldCap 在上文讲过
    newTab[j + oldCap] = hiHead;
}

（3) 树节点，数据迁移（即双向链表的数据迁移）

1、和迁移单向链表逻辑差不多
2、维护位置发生变化的，和位置未发生变化的双向链表
3、判断迁移后的树节点的数量是否小于阀值 6，如果小于退化成为普通链表。
4、否则重新构建新的二叉树

//入参 bit 是老数组长度，tab 为新数组，j 为老数组中的节点位置
final void split(HashMap<K,V> map, Node<K,V>[] tab, int index, int bit) {
    TreeNode<K,V> b = this;
    // Relink into lo and hi lists, preserving order
    //用于迁移位置没有改变的元素
    TreeNode<K,V> loHead = null, loTail = null;
    // 用于迁移位置发生变化的元素
    TreeNode<K,V> hiHead = null, hiTail = null;
    int lc = 0, hc = 0;
    //向后循环直到链表结束
    for (TreeNode<K,V> e = b, next; e != null; e = next) {
        next = (TreeNode<K,V>)e.next;
        e.next = null;
        //判断节点的位置，是否发生变化
        if ((e.hash & bit) == 0) {//位置没变化
            //e.prev = loTail 向前指
            //是否第一个位置没发生变化的元素
            if ((e.prev = loTail) == null)
                loHead = e;
            else
                //向后指
                loTail.next = e;
            loTail = e;
            ++lc;
        }
        else {//位置发生变化
            if ((e.prev = hiTail) == null)
                hiHead = e;
            else
                hiTail.next = e;
            hiTail = e;
            ++hc;
        }
    }

    if (loHead != null) {
        //判断树节点的数量是否小于阀值，如果小于退化成为普通链表
        if (lc <= UNTREEIFY_THRESHOLD)
            tab[index] = loHead.untreeify(map);
        else {
            tab[index] = loHead;
            if (hiHead != null) // (else is already treeified)
                loHead.treeify(tab);
        }
    }
    if (hiHead != null) {
        if (hc <= UNTREEIFY_THRESHOLD)
            tab[index + bit] = hiHead.untreeify(map);
        else {
            tab[index + bit] = hiHead;
            if (loHead != null)
                hiHead.treeify(tab);
        }
    }
}

这里可以回答，为啥将 treeNode 构建成双向链表了，因为其中一个原因是，迁移时候方便。

java1.8 HashMap 源码分析