java.util.HashMap
public class HashMap<K,V> extends AbstractMap<K,V> implements Map<K,V>, Cloneable, Serializable
本质是一个Entry[]数组(哈希桶数组),用Key的哈希值对桶数组size取模可得到数组下标。若数组下标碰撞,进化为链表或红黑树。
一.基本概念
基于Map接口实现、允许null键/值、非同步、不保证有序(插入的顺序)、也不保证序不随时间变化
- 每个结构体包括:hash、key、next、value
- 容量Capacity:buckets的数目(hashmap能装载的最大个数)
- 负载因子Load factor:就是buckets填满程度的最大比例
- 当bucket填充的数目(即hashmap当前元素个数)大于capacity*load factor时就需要调整buckets的数目为当前的2倍
1.1 结构体
static class Node<K,V> implements Map.Entry<K,V> {
final int hash;
final K key;
V value;
Node<K,V> next;
...
}
1.2 容量
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
static final int MAXIMUM_CAPACITY = 1 << 30;
static final float DEFAULT_LOAD_FACTOR = 0.75f;
二.put函数的实现
- 对key的hashCode()做hash,然后再计算index;
- 如果没碰撞直接放到bucket里;碰撞则分3种情况
- 如果节点已经存在就替换old value(保证key的唯一性)
- 如果碰撞了,以链表的形式存在buckets后;
- 如果碰撞导致链表过长(大于等于TREEIFY_THRESHOLD),就把链表转换成红黑树;
- 放入节点后,判断若bucket满了(超过load factor*current capacity),就要resize
- 访问或插入节点后的afterNodeAccess/afterNodeInsertion给LinkedHashMap继承用的
public V put(K key, V value) {
return putVal(hash(key), key, value, false, true);
}
//1.无碰撞直接放入
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
//2.碰撞有3种情况
//2.1 key值存在,替换value
if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k))))
e = p;
//2.2 计算出的节点为树,则控制树
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
//2.3 计算出的节点为链表,则控制链表
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
三.get函数的实现
- bucket里的第一个节点,直接命中;
- 如果有冲突,则通过key.equals(k)去查找对应的entry
- 若为树,则在树中通过key.equals(k)查找,O(logn);
- 若为链表,则在链表中通过key.equals(k)查找,O(n)
四.hash函数实现
- 高16bit不变,低16bit和高16bit做了一个异或
- 从速度、功效、质量考虑,在bucket的n比较小的时候,也能保证高低bit都参与到hash的计算中,同时不会有太大的开销
static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
因为table长度n为2的幂,故计算下标的时候使用&位操作,而非%求余:
first = tab[(n - 1) & hash]
五.resize函数实现
- resize,即把bucket扩充为2倍,然后把节点再放到新的bucket中
- 把节点放到新bucket时,不需要重新计算hash,只需看原来的hash值新增的那个bit是1还是0,是0的话索引没变,是1的话索引变成原索引+oldCap
- 既省去重新计算hash值的时间,同时由于新增的1bit是0还是1可以认为是随机的,因此resize的过程,均匀的把之前的冲突的节点分散到新的bucket了
六.线程安全
HashMap线程不安全,多线程场景解决方案:
- Map m = Collections.synchronizeMap(hashMap)
- JDK1.5提供了ConcurrentHashMap
- Hashtable(已过时,不推荐)