散列表

目录:

1、前言
2、散列表性质
3、HashMap源码解析

前言

散列表,也称哈希表,是一种常见的数据结构。相信很多同学在面试的时候会遇到如下问题,本文介绍的散列表可以解决。

一个很大的文件中,有较多的相同词汇,如何统计排名前k的词汇出现的次数?

散列表从组织列式上看,是键值对的集合,它是数组的一种延伸。但数组最大的优势就是,直接寻址,知道了元素的索引,只需要花费O(1)的时间就能找到此元素。但在日常生活中往往不知道元素的具体索引,比如说要在成绩系统中找出张三的语文成绩,关键字为“张三”,但“张三”具体在成绩表中的第几栏不清楚,还是得花费O(N)时间查找。

是否有办法,知道关键字就能知道元素索引?如果两个关键字对应的索引一致(冲突)该怎么办?

散列表性质

散列表是一种特殊的数据结构,希望在任何时候查找的效率都为O(1)。它的底层是由数组和链表实现的。

散列表对关键字进行哈希求值,哈希值即是元素在数组中的索引。求取哈希值,再根据索引在数组中获取对应的元素,这样查找的效率就是O(1)了。

如果两个关键字哈希值一致,此时生成一个链表,链表的头结点在数组中,链表中的元素则为其它哈希值为此索引的元素。

image.png

可以将数组中的每个位置称为槽,如果此槽位已经存在元素了,则将此槽位上的元素next指针指向新元素

由以上定义可知,散列表理想情况下,查找效率为o(1),最差情况则是,所以元素的哈希值都相同,全部在链表上,此时查找效率为O(N),所以散列表中,哈希算法非常重要,每个关键字的哈希值必须唯一,且不能存在较多不同关键字对应着同一个哈希值的现象

常见的哈希算法为:

  • 除法散列,h(k)= k mod m,m值不能太小且不能为2的幂,算法简单甚至简陋
  • 乘法散列,h(k)=floor(m(kA mod 1)),此方法比除法稍好点,但也很简单
  • 全域散列法,具体而言就是随机选取一种哈希算法

关于哈希算法,本文不再过多讨论,java选手这点比较好,哈希算法java中已经有比较成熟的应用了,不需要自己动手再写了。关于散列表相关的其它推导,定理之类的本文也不再复述,有兴趣者去看算法导论吧

HashMap源码解析

先看看HashMap中的关键成员变量。

  //存储元素的数组
  transient Node<K,V>[] table;
  //默认的负载因子,如果(负载因子)x(容量)>(Map 大小),则调整 Map 大小
  static final float DEFAULT_LOAD_FACTOR = 0.75f;
  //散列表的默认大小上限值,如果大于此则调整散列表大小
  static final int TREEIFY_THRESHOLD = 8;


  //数组中存放的元素类,注意看next,是不是相当眼熟,链表的组织形式
  static class Node<K,V> implements Map.Entry<K,V> {
    final int hash;
    final K key;
    V value;
    Node<K,V> next;
    ......
  }
  //根据关键字计算哈希值
  static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

HashMap中最重要的便是两个方法,插入元素和查找元素,下面我们来看看散列表是如何插入元素和查找元素的吧

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    //如果内部数组为空或长度为0,则初始化内部数组
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    //根据哈希值找到的数组中的槽位,如果槽位上的元素为null,则说明此槽位没有已插入元素,
    //直接插入新元素即可
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    else {
        Node<K,V> e; K k;
        //如果根据哈希找到的槽位已经有元素了,且关键字和待插入元素关键字一致,
        //则将已有元素的value更新成待插入元素的value
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;
        //如果数组中存放的是TreeNode,则另行讨论
        else if (p instanceof TreeNode)
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        else {
        //如果找到的元素槽位已有元素,且关键字和待插入元素不一致,则将已有元素
        //当成链表的头结点,插入到此链表中
            for (int binCount = 0; ; ++binCount) {
                if ((e = p.next) == null) {
                    p.next = newNode(hash, key, value, null);
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        treeifyBin(tab, hash);
                    break;
                }
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
        //对应第一种最简单的情况,更新已有元素的value值
        if (e != null) { // existing mapping for key
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;
        }
    }
    //直接插入新元素后,增大size,如果size大于临界值,则数组扩容
    ++modCount;
    if (++size > threshold)
        resize();
    afterNodeInsertion(evict);
    return null;
}

查找元素也类似于插入操作,先求关键字的哈希值,再去对应槽位中查找,如果关键字相同找返回要找的元素,如果不同则去链表查找或其它。

//hash参数是已经计算好的key的哈希值
//哈希值为hash,则在数组中的位置为[(n - 1) & hash]
final Node<K,V> getNode(int hash, Object key) {
    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & hash]) != null) {
        //最顺利情况,[(n - 1) & hash]上的索引即为需要查找的元素
        if (first.hash == hash && // always check first node
            ((k = first.key) == key || (key != null && key.equals(k))))
            return first;
        if ((e = first.next) != null) {
            //TreeNode使用其它方法查找,它是使用树实现的,本文中暂不讨论
            if (first instanceof TreeNode)
                return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            do {
            //链表搜索法,不停查找结点的next节点,如果关键字相同则返回
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;
}

从以上代码中也可以看出HashMap是非线程安全的,在插入过程中并未加同步锁,只是将关键成员变量设置成transient 而已,然后transient 并不能代替同步锁。

整个HashMap源码暂时分析到这,其它的操作,诸如扩充数组,计算大小,都相对比较简单了,阅读源码只要不被代码吓住,慢慢看,分解看,还是相当容易的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容

  • 本文主要介绍散列表(Hash Table)这一常见数据结构的原理与实现。由于个人水平有限,文章中难免存在不准确或是...
    absfree阅读 16,279评论 2 35
  • 什么是哈希表? 哈希表(Hash table,也叫散列表),是根据关键码值(Key value)而直接进行访问的数...
    郝程序猿阅读 2,230评论 1 7
  • 基本概念 基于线性表、树表结构的查找方法,这类查找方法都是以关键字的比较为基础的。在查找过程中只考虑各元素关键字之...
    官先生Y阅读 486评论 0 2
  • 散列表(也叫哈希表),是根据键而直接访问在内存存储位置的数据结构。在这篇文章中,我们将介绍散列表的基本原理。通过了...
    王聪帅阅读 2,902评论 0 7
  • 数据结构与算法--散列表 之前学习了基于链表的顺序查找、基于有序数组的二分查找、二叉查找树、红黑树,这些算法在查找...
    sunhaiyu阅读 646评论 3 5