数据结构算法之深入了解HashMap

前言

网上有很多HashMap的视频和一大堆HashMap的文章,所以,今天这篇文章我并不打算从头过源码(只看1.8的),而是带着问题去带你深入了解HashMap。

需求

设计一个用户信息记录,key是手机号码后5位,value是该用户的信息资料。现在要求添加、删除、搜索的复杂度都是o(1)。

  • 我们可以这么做
    private Person[] persons=new Person[100000];

    public void add(int phone,Person person){
        persons[phone]=person;
    }
    public void remove(int phone){
        persons[phone]=null;
    }

我们会发现一个严重的问题,空间浪费太大,使用率低


image.png
  • 既然这样我们是不是可以将索引进行一定计算,将其转成比较小的值。这就可以使用到Hash表

哈希表(Hash Table)的实现者——HashMap

Hash表也叫做散列表,那么它是如何实现高效的处理数据的?

image.png

利用Hash计算将key生成数组对应的index(索引),然后就可以根据index进行定位数组元素

HashMap底层结构

数组+链表+红黑树


image.png

上面图片我们看出,当两个hash值一样的时候,就会出现hash碰撞。

为什么链表是将数据添加到尾而不是头?

比如这时候已经存在一个链表数据Node<String,Value> A,我们把数据B加入的时候,首先需要和A进行判断,判断的时候指针会进行后移。如果key一样就覆盖,但是如果不一样就添加到尾部。

怎么解决Hash碰撞

HashMap处理方式是添加元素的时候,将数据以链表的形式存储。当链表的大小大于等于9并且哈希表的容量>64的时候会将链表转成红黑树,而当红黑树的大小小于6的时候又会转成链表

哈希表中哈希函数的实现步骤
  • 1、先生成整数型的key的哈希值
  • 2、再让key的哈希值与数组大小进行相关运算,生成索引值(数组的长度是2的幂次方)
hash(key) % (table.length );

为提高运算&可以替代%运算

hash(key) & (table.length - 1);

&:全是1为1,反之为0

  • 为什么数组的长度需要是2的幂次方
    如:2^2 -1实际二进制是11,2^3-1的二进制是111 ,2^4 -1=1111 。此时数据11001010(202)&1111和11001100(204) &1111的结果如下
11001010 11001100
&1111 &1111
1010 1100

我们会发现我们结果一定会小于1111也就是我们的数组的大小,而且我们会发现 202%16 =202&15,也就是说,hash(key)& (table.length - 1)==hash(key)%table.index

如何生成key的哈希值

key的种类

整数,浮点数,字符串,自定义对象

不同的种类生成的hash值方式不一样,但是目的都是尽量让每个key的hash值不一样,且尽量让所有信息参与运算

  • 整数的hash值
    因为是int类型,所以可以直接拿int当作hash值
    我们可以直接看Integer的源码
  public int hashCode() {
        return hashCode(this.value);
    }
  • 浮点数的hash值
    直接看源码
    Float
  public static int hashCode(float var0) {
        return floatToIntBits(var0);
    }

Double

    public static int hashCode(double var0) {
        long var2 = doubleToLongBits(var0);
        return (int)(var2 ^ var2 >>> 32);
    }
  • long类型的hash值
  public static int hashCode(long var0) {
       return (int)(var0 ^ var0 >>> 32);
   }

关于>>> 和^的作用:
^表示异或,相同为0,不同为1而>>>表示无符号位移

我们都知道,long和doublue都是64位的,那么>>>32再^则表示64位的数据的高位32位和低位32位进行异或处理,以达到充分利用所有信息计算出hash值

value 1111 1111 1111 1111 1111 1111 1111 1111 1011 0110 0011 1001 0110 1111 1100 1010
value>>>32 0000 0000 0000 0000 0000 0000 0000 0000 1111 1111 1111 1111 1111 1111 1111 1111
value^value>>>32 1111 1111 1111 1111 1111 1111 1111 1111 0100 1001 1100 0110 1001 0000 0011 0101
  • String的hash值怎么计算
    字符串是由若干个字符组成的 ,每个字符本质就是一个整数,可以进行计算
    如字符串jack的哈希值可以表示为 j ∗ n^3 + a ∗ n^2 + c ∗ n^1 + k ∗ n^0,等价于 [ ( j ∗ n + a ) ∗ n + c ] ∗ n + k

在jdk中这个n是31,那么为什么是31呢?

  • 31是个奇偶数,因为它只能被1和本身除。而且它符合2^n - 1
  • 素数和其他数相乘的结果比其他方式更容易产成唯一性,减少哈希冲突
  • 不用17是因为1-20的数较小,会增加hash值的冲突

自定义对象作为 key,最好同时重写 hashCode 、equals 方法

  • 1、如果不重写hashCode,默认复写的是内存地址的hashCode
  • 2、equals默认比较的是内存地址是否相等
  • 3、如果之重写hashCode,如下面代码
    @Override
    public int hashCode() {
        return age/10;
    }

这时候我们在年龄是0-19这个年龄端,他们的值都是0,也就是说hash值一样,那么在HashMap中这时候并不知道,是添加链表的尾部,还是直接覆盖当前的值

  • 4、同理,如果只复写了equals,HashMap并不保证,当前hash值一样,如果hash值都不一样,也就没有判断一说

一些代码问题分析

1、为什么h要先>>>16位

    static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

首先,我们知道int是4字节,总共32位,那如果>>>16位是不是和刚才long>>>32位情况一样,都是保证key高位和低位进行异或运算

2、默认加载因子为什么是0.75?

   static final float DEFAULT_LOAD_FACTOR = 0.75f;

假设该值为0.5,则每次当大于数组的长度的一半的时候都会扩容,这样就相当于每次有一半的空间浪费了,但是查询效率会比较高
那如果该值为1,我们会发现空间利用率最大,但是查询效率会比较低

  • 下面代码表示大于8的时候才转成红黑树而不是大于等于8
static final int TREEIFY_THRESHOLD = 8;
  • 下面代码表示为6红黑树转成为链表
    static final int UNTREEIFY_THRESHOLD = 6;

一些代码分析

put源码

 final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0)//1
            n = (tab = resize()).length;
        if ((p = tab[i = (n - 1) & hash]) == null)//2
            tab[i] = newNode(hash, key, value, null);
        else {//3
            Node<K,V> e; K k;
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);//4
            else {
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

  • n 是数组的长度,我们之前说了,n是2的幂次方
  • p = tab[i = (n - 1) & hash]我相信大家也知道了,实际就是根据index获取到节点。如果为空则创建一个根节点
  • 当我们发现有节点了,就会进入注释3这步
    1、如果hash值一样,并且如果key相等,则直接替换
    2、如果hash值或者key不相等,则判断是不是TreeNode,是则会进入到注释4(待会解释)
    3、for循环实际就是判断是否转成红黑树,bigCount和链表相差2,假设binCount为3,则链表为5,所以当bigCount>=7的时候链表的数量是9,treeifyBin需要注意这行代码
 if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)//数组的大小小于64

分析注释4的代码

  final TreeNode<K,V> putTreeVal(HashMap<K,V> map, Node<K,V>[] tab,
                                       int h, K k, V v) {
            Class<?> kc = null;
            boolean searched = false;
            TreeNode<K,V> root = (parent != null) ? root() : this;
            for (TreeNode<K,V> p = root;;) {
                int dir, ph; K pk;
                if ((ph = p.hash) > h)
                    dir = -1;
                else if (ph < h)
                    dir = 1;
                else if ((pk = p.key) == k || (k != null && k.equals(pk)))
                    return p;
                else if ((kc == null &&
                          (kc = comparableClassFor(k)) == null) ||
                         (dir = compareComparables(kc, k, pk)) == 0) {
                    if (!searched) {
                        TreeNode<K,V> q, ch;
                        searched = true;
                        if (((ch = p.left) != null &&
                             (q = ch.find(h, k, kc)) != null) ||
                            ((ch = p.right) != null &&
                             (q = ch.find(h, k, kc)) != null))
                            return q;
                    }
                    dir = tieBreakOrder(k, pk);
                }

                TreeNode<K,V> xp = p;
                if ((p = (dir <= 0) ? p.left : p.right) == null) {
                    Node<K,V> xpn = xp.next;
                    TreeNode<K,V> x = map.newTreeNode(h, k, v, xpn);
                    if (dir <= 0)
                        xp.left = x;
                    else
                        xp.right = x;
                    xp.next = x;
                    x.parent = x.prev = xp;
                    if (xpn != null)
                        ((TreeNode<K,V>)xpn).prev = x;
                    moveRootToFront(tab, balanceInsertion(root, x));
                    return null;
                }
            }
        }

上面的代码主要做的就是:
首先两个hash需要判断是否相等,随后赋值,赋值的目的是后面遍历,如果小于则节点向左查询,大于则向右查询,如果key相等则直接返回。如果不相等,则判断是否就有可比较性,并且没有进行扫描过,则随后进行左右子树扫描查询,如果找到直接返回,找不到则根据内存地址大小决定是向左还是向右

查找节点的代码分析
 final TreeNode<K,V> find(int h, Object k, Class<?> kc) {
            TreeNode<K,V> p = this;
            do {
                int ph, dir; K pk;
                TreeNode<K,V> pl = p.left, pr = p.right, q;
                if ((ph = p.hash) > h)
                    p = pl;
                else if (ph < h)
                    p = pr;
                else if ((pk = p.key) == k || (k != null && k.equals(pk)))
                    return p;
                else if (pl == null)
                    p = pr;
                else if (pr == null)
                    p = pl;
                else if ((kc != null ||
                          (kc = comparableClassFor(k)) != null) &&
                         (dir = compareComparables(kc, k, pk)) != 0)
                    p = (dir < 0) ? pl : pr;
                else if ((q = pr.find(h, k, kc)) != null)
                    return q;
                else
                    p = pl;
            } while (p != null);
            return null;
        }`

1、如果判断的hash大于根节点的hash则向左搜索,如果小于则向右搜索,如果key相等则直接返回
2、p1等于null则表示左子树为空,向右搜索
3、pr为空,则表示右子树为空,向左搜索
4、左右子树都不为空那个,则判断是否具有可比较性,如果有,则判断进入左子树还是右子树
5、如果不具有可比较性,则向右子树搜索
6、如果右子树找不到,则向左子树搜索

最后

因为hashMap设计的东西,一篇文章不可能全部涉及到,希望对大家有所帮助。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,036评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,046评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,411评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,622评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,661评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,521评论 1 304
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,288评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,200评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,644评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,837评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,953评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,673评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,281评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,889评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,011评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,119评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,901评论 2 355

推荐阅读更多精彩内容