HashMap

HashMap 是开发中常用的经典数据结构,在查询问题上效率极高。本文对 HashMap 的相关问题做一次总结。

JDK1.7中 HashMap 的底层结构为数组 + 链表的形式。

HashMap in jdk1.7

我们知道,数组的查询和修改速度很快,但是增加一个元素或者删除一个元素就很慢,但是链表就反过来,链表是增加和删除一个元素很快,查询和修改就很慢。而 HashMap 将两者结合起来,旨在提高查询效率。那它的工作原理是什么呢?

简单来说, HashMap 为 key : value 类型的数据结构,我们存放数据(假定为(key, value))时,调用 put 方法, HashMap 会计算 key 的 hash 值,经过某些操作计算出特定的数组索引,再将数据散列到索引处。这样就完成一次数据的存储。那链表在哪里使用呢?

当 put 方法在对不同的 key 进行 hash 操作时,可能会计算出相同的 hash 值(这时候 hash 算法的设计就尤为重要了),如果数组的索引处已经被相同 hash 值的数据占有了该怎么办呢?这时候就要用到链表了。前面提到过,链表在查询和修改数据的时候很慢,但是它在插入和删除数据的时候却很快,那么利用这个特性,我们将相同的 hash 值对应的数据装进同一个桶(bucket)中,在这个桶中形成一个链表,将它们全都链接在一起,这样就可以解决相同 hash 值的问题了。

这样一来,存放在 HashMap 中的数据就可以被高效查询了,如果冲突很少的情况下,或者说理想情况下,其时间复杂度为 O(1) ,是不是非常快?

但是问题呢,也出在这里,不然1.8为什么还要去优化 HashMap 呢?

其实在日常开发中,理想情况基本上是不存在的。如果插入的数据冲突严重,那么桶里的链表会越来越长,这样在查询时的效率就会越来越低,时间复杂度为 O(n)(链表查询的时间复杂度为 O(n) )。

JDK1.8对HashMap的查询效率进行了大幅优化,时间复杂度可已达到 O(logn) ,而在1.7中,这个值为 O(n) 。那么JDK到底怎么优化了呢?

1.8中 HashMap 为链表长度设置了一个阈值,长度超过这个阈值的链表将会被转换为红黑树。阅读1.8的 HashMap 源码,就可以从两个核心方法 (get/put )看出 1.8 中对大链表做了优化,修改为红黑树之后查询效率直接提高到了 O(logn) 。

HashMap in jdk1.8

HashMap的遍历方式

//method 1
Iterator<Map.Entry<String, Integer>> entryIterator = map.entrySet().iterator();
        while (entryIterator.hasNext()) {
            Map.Entry<String, Integer> next = entryIterator.next();
            System.out.println("key=" + next.getKey() + " value=" + next.getValue());
        }

//method 2        
Iterator<String> iterator = map.keySet().iterator();
        while (iterator.hasNext()){
            String key = iterator.next();
            System.out.println("key=" + key + " value=" + map.get(key));
        }

建议使用第一种方法遍历 HashMap ,原因是每次遍历都可以同时拿到 Map 中的 key 和 value ,效率较高;而第二种方法只能先拿到 key ,然后再通过 key 计算 value ,效率不及第一种方法。

分析一下method1这种遍历方法:

Map接口提供了一个 entrySet() 的方法,这个方法将出现在 map 中的 mappings ,也就是 map 中所有的 Entry<K, V> 都存放在一个 Set 集合中,并最终返回这个Set集合。

我们为这个Set初始化一个泛型迭代器,迭代循环 Set 中的 Entry<K, V> ,最终取得相应的键值对。


经过优化的 HashMap 查询效率的确是高了很多,但是 HashMap 原有的问题也都存在,比如在并发场景下使用时容易出现死循环。

final HashMap<String, String> map = new HashMap<String, String>();
for (int i = 0; i < 1000; i++) {
    new Thread(new Runnable() {
        @Override
        public void run() {
            map.put(UUID.randomUUID().toString(), "");
        }
    }).start();
}

但是为什么呢?简单分析下。

HashMap 在扩容的时候会调用 resize() 方法,就是这里的并发操作容易在一个桶上形成环形链表;这样当获取一个不存在的 key 时,计算出的 index 正好是环形链表的下标就会出现死循环(其实链表此时成环)。


不过我觉得这不能算是Bug,因为HashMap本身就是非线程安全的,在单线程中使用它是没有任何问题的。如果要在多线程中使用和HashMap相同的功能,ConcurrentHashMap了解一下?

参考
HashMap? ConcurrentHashMap? 相信看完这篇没人能难住你!

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容