集合源码之hashMap

引子

java的集合类使我们经常使用的，而hashmap更是集合中常用的集合类。由于使用的散列，hashmap的crud操作都接近于常数操作时间，本文目的是探究hashmap的底层实现，看java中的散列实现，希望能给想要了解hashmap实现的童鞋一点帮助，需要注意的是hashmap不是线程安全的集合类。本文分为三部分：第一部分探究hashmap的数据结构、第二部分探究hashmap的重要算法实现、第三部分探究hashmap中值得探讨的地方。文章不会列出详细源码，常规代码概述而过，文章假定读者已经具备散列的相关基础知识，如果你对散列不熟悉或者想重温一下，请参考散列表面面观。

hashMap的数据结构

程序是由数据结构和算法构成，弄懂了数据结构和算法，这个程序也就自然明白。而数据结构更是程序的骨架。所以首先，我们看一下hashmap的数据结构示意图，在示意图的基础上进行。

散列表相关

数组：即为上图的table，也就是hashmap底层的存储结构。该数字中存放的是hashmap定义的节点类，由于hashmap对冲突采用的拉链法，所以节点类之间形成了链表。
节点类：存储数据的节点类Entry。节点类数据结构为key、value、hash值以及指向下一个节点的next节点（类似链表的节点类）。
装填因子：loadFactor。在散列表面面观中提到，采用拉链法解决冲突的散列表的装填因子在0.75到0.80之间。hashmap的默认装填因子为0.75
散列函数：下文详述。
初始容量大小：默认为16，也可以通过构造函数传入，但是必须是2的指数，原因下文详述。
临界容量：即为扩容的临界容量，为容量大小与装填因子的乘积。

实例变量

大小：hashmap的大小（size）。
最大容量：MAXIMUM_CAPACITY，为1 << 30。
修改次数：modCount。

hashMap关键算法实现

hashMap实现了map接口，下面我们会对map接口中的关键方法进行分析。

构造方法

hashMap提供了三个构造函数：无参构造函数、单参构造函数（容量）、双参构造函数（容量、装填因子）。我们探讨双参构造函数，其他两个都是以此为基础。构造方法分为如下几步：

参数校验：
1、如果初始容量小于0，抛出参数异常。如果初始容量大于hashmap最大容量，那么默认赋值为最大容量
2、如果装填因子小于0或不合法也抛出参数异常。
调整容量：调整容量至不小于初始容量的2的指数容量。即容量必须为2的指数大小。
初始化：初始化装填因子、初始化临界容量、初始化数组（大小即为调整容量后的大小）
init函数：钩子函数，用于子类实现自己特殊要求。

重要算法

对hashmap中重要的算法案进行分析，分为增删改查。所有的增删查方法modcount都要修改。

增（put（K,V））、改

put的过程很简单：先校验参数，如果key为null那么就调用putForNullKey方法，否则找到key对应的table位置，遍历该位置的链表，如果链表中有该key那么就修改value否则就新增一个节点到改链表里。我们讨论put方法的几个函数细节：

putForNullKey：此方法针对key为null的put，需要注意的是null总是放在table[0]的位置。方法步骤跟put普通元素一样，遍历table[0]的链表，如果链表中存在null那么就修改value，如果不存在就新增Entry节点。看下面的动图可能更加形象。
hash重散列:将key的hashcode再进行一次散列计算，使hash的值更加分散。
indexFor：见最后一部分的问题探讨。
addEntry：增加一个节点。由于hashmap维护的是单链表，所以是在表头插入。增加节点的时候我们要考虑增加后是否需要扩容。如果需要扩容即扩容两倍，然后把源hashmap的table中的值拷贝到新的table中，需要重新散列，所以这个操作为O(n)时间复杂度。

删（remove(K)）

删除的过程也很清晰：先计算key所对应的table索引值，然后就是单链表删除节点的方法（单链表删除需要保留前一个节点以便完成节点删除后的替换）。我们以删除10为例子，看下过程。

查（get(key)）

查询很简单：如果为null就调用getForNullKey（table[0]顺序查找）。不为空找到table索引，然后遍历索引所在的单链表，如果找到key返回对应的value，否则返回null。查询比较简单，这里就不动态展示了。

其他方法

size：返回当前map大小。
isEmpty：判断map是否为空。
getEntry：通过key找寻对应的entry节点。
keySet和values：通过迭代器返回key和value的集合，这里不进行讨论。

hashMap若干问题

容量为2的指数的奥妙？

在文章开始，我们提到了hashmap数组容量必须为2的指数大小，而且构造函数参数如果不是2的指数还会调整到满足此规则的不小于传入参数的值，现在我们就来探究一下hashmap为什么要有这个规则。其实奥妙就在indexfor中,indexfor函数源码如下

static int indexFor(int h, int length) {
    return h & (length-1);
}

关键就是在于length-1把容量大小-1后二进制所有的位都变为1，这样会减少散列冲突。我们以长度16和长度15比较

可以看到长度为15发生散列冲突，在散列值质量高的情况（hashmap通过hash函数保证），hashmap这种做法会让散列冲突尽可能减少。

transient关键字？

我们可以看到hashmap中的table使用transient关键字修饰。transient关键字我们都熟悉，在序列化的时候可以不被序列化。那hashmap如何传值？答案当然是是通过writeObject，将hashmap中的值进行序列化。这里考虑到两个问题

空间考虑：hashmap很多存储空间尚未使用，序列化没有意义，仅序列化存储元素数组
不同jvm考虑：table中的内存分布是根据key的hashcode计算的，但是不同的jvm针对同一个可以产生的hashcode可能是不同的。如果使用默认序列化，反序列化之后元素位置是跟序列化之前相同的，可是这个jvm产生的hashcode变了，indexfor对于同一个key在不同的jvm对应不同的值，这样肯定不行的。这就是为什么要加transient关键字，为了就是忽略内存分布，通过readObject将hashmap重新生成。

volatile关键字？

在hashmap中，modCount、keySet、values都使用volatile关键字修饰。这里的原因其实很简单：我们知道volatile关键字一个特点就是内存可见性，某个变量修改之后其他线程会立即看到修改，上述三个变量都需要这样的特性，针对修改需要立即体现，所以用到了volatile关键字。

非线程安全？

在多线程情况下，hashmap的put、get方法都是很脆弱的。这是一个比较大的话题，推荐大家看耗子叔的博客：疫苗：Java HashMap的死循环