Hash表及其应用

散列表,也叫做哈希表。

它基于数组的随机访问的特性,来拓展延伸,从而实现了散列表,为什么这样说呢,我们举一个例子来看看。

假设学校举行运动会,对100个进行编号,我们现在希望实现通过编号来快速找到某一个学生,该怎么实现呢,我们可以维护一个数组,将每一个学生的编号放到同样的数组下标内,比如1号放到数组下标为1的位置,接下来额以此类推,这样就能够实现快速随机访问,在O(1)的时间复杂度内就找到这个学生。

也许这样你看不出用到了散列思想,但这确实就是使用了散列的思想,将数组下标和学生编号进行了映射,只不过映射规则非常简单,就是f(n) = n。


但是现实时不会这么简单的,现在要求编号要复杂一点,用 6 位数字来表示。比如 051167,其中,前两位 05 表示年级,中间两位 11 表示班级,最后两位还是原来的编号 1 到 89。这个时候我们该如何存储选手信息,才能够支持通过编号来快速查找选手信息呢?

依然时通过散列的思想,我们可以截取编号的后两位作为数组下标,存储选手信息,当我们要查询时,也截取后两位作为数组下标,到数组内去查询,这样就能够实现快速查询。

其中,参赛选手的编号我们叫作键(key)或者关键字。我们用它来标识一个选手。我们把参赛编号转化为数组下标的映射方法就叫作散列函数(或“Hash 函数”“哈希函数”),而散列函数计算得到的值就叫作散列值(或“Hash 值”“哈希值”)。拿上面那个来说,关键字是051167,我们通过hash函数,即截取后两位,计算得到hash值67。

int hash(String key) {

  // 获取后两位字符

  string lastTwoChars = key.substr(length-2, length);

  // 将后两位字符转换为整数

  int hashValue = convert lastTwoChas to int-type;

  return hashValue;

}

可以看到的是,hash函数是一个非常重要的东西,如何构造一个好的hash函数也是非常重要的,通过学习,我目前知道的是3点:

1:hash值是一个非负整数

2:如果key1==key2 hash(key1) == hash(key2)

3:如果key1!=key2 hash(key1) != hash(key2)

第一点很好理解,因为我们要维护成数组的下标,那么负数和非整数都是不行的;第二点也好理解,如果两个key相同,那么经过同一个hash函数计算,他们得到的值也必须要一样。第三点要好好理解一下,不同的key得到的hash值不一样,也就是这一点,引出了hash冲突这样一个概念。

因为即使最好的hash算法,也无法保证两个不一样的key得到的hash值一定不一样。

计既然无法解决,那么就要找其他的方法了。

经典的方法有链表法和开放寻址法。

开放寻址法:

这个比较好理解,就是如果计算得到的hash值在数组内已经有数据了,那我们就在紧接下一个寻找,如果没有数据,就插入到这个位置,这种方法不是非常好。

你可能已经发现了,线性探测法其实存在很大问题。当散列表中插入的数据越来越多时,散列冲突发生的可能性就会越来越大,空闲位置会越来越少,线性探测的时间就会越来越久。极端情况下,我们可能需要探测整个散列表,所以最坏情况下的时间复杂度为 O(n)。同理,在删除和查找时,也有可能会线性探测整张散列表,才能找到要查找或者删除的数据。

为了保证散列表的性能,我们会维护一个装载因子的概念。

装载因子:填入表中的元素个数 / 散列表的长度

装载因子越小,发生散列冲突的概率就越小,性能就越好,如果装载因子越大,那么性能就会迅速下降,不过装载因子越小,那么需要消耗的内存就越大,如果不考虑性能,装载因子可以超越1.


链表法:

链表法比较常用


链表法


介绍了散列表的基本概念和一些散列冲突的解决方法,拿我们来看看究竟怎么样,才能设计一个优秀的企业级的散列表呢?

设计散列表,最关键的就是散列函数的设计,一个好的散列函数,既能够快速计算,也能够让散列冲突的概率较为小。既然要计算快速,那么这个散列函数就必然不能够太复杂,不然计算时间就较为耗时,其次也要保证计算出来的hash值要平均分布,否则一个槽出现的概率非常大,那么散列冲突的概率就大大提升。


我们之前说过,hash函数是有一个装载因子的概念的,对于动态的散列表,我们不断进行插入操作,它的装载因子势必会扩大,当装载因子过大时,hash表的性能就会下降,这个时候,就需要对hash表进行扩容,这样装载因子就会下降,对于数组的扩容,我们都可以很好的实现,不过对于散列表的扩容,就不是简单的移动数据这么简单了。

hash扩容

可以看到,当我们新建了一个数组后,原来hash表中的内容就要重新计算hash值,然后存放到新的哈市、表中,并不是简单的移动就能解决的。

不过,这样扩容,如果数据量很大,那么效率就必然很低下,怎么解决呢,我们可以不立刻拷贝数据到新的hash表里面,可以每新插入一个数据就将老的表里面的数据拿一个到新的表里面,这样就可以不一次性拷贝数据,效率就会得到提升。

高效hash扩容

接下啦看如何选择合适的hash冲突解决法:

当数据量比较小、装载因子小的时候,适合采用开放寻址法。这也是 Java 中的ThreadLocalMap使用开放寻址法解决散列冲突的原因。

基于链表的散列冲突处理方法比较适合存储大对象、大数据量的散列表,而且,比起开放寻址法,它更加灵活,支持更多的优化策略,比如用红黑树代替链表。

工业级散列表举例分析刚刚我讲了实现一个工业级散列表需要涉及的一些关键技术,现在,我就拿一个具体的例子,Java 中的 HashMap 这样一个工业级的散列表,来具体看下,这些技术是怎么应用的。

1. 初始大小HashMap 默认的初始大小是 16,当然这个默认值是可以设置的,如果事先知道大概的数据量有多大,可以通过修改默认初始大小,减少动态扩容的次数,这样会大大提高 HashMap 的性能。

2. 装载因子和动态扩容最大装载因子默认是 0.75,当 HashMap 中元素个数超过 0.75*capacity(capacity 表示散列表的容量)的时候,就会启动扩容,每次扩容都会扩容为原来的两倍大小。

3. 散列冲突解决方法HashMap 底层采用链表法来解决冲突。即使负载因子和散列函数设计得再合理,也免不了会出现拉链过长的情况,一旦出现拉链过长,则会严重影响 HashMap 的性能。

于是,在 JDK1.8 版本中,为了对 HashMap 做进一步优化,我们引入了红黑树。而当链表长度太长(默认超过 8)时,链表就转换为红黑树。我们可以利用红黑树快速增删改查的特点,提高 HashMap 的性能。当红黑树结点个数少于 8 个的时候,又会将红黑树转化为链表。因为在数据量较小的情况下,红黑树要维护平衡,比起链表来,性能上的优势并不明显。

4. 散列函数散列函数的设计并不复杂,追求的是简单高效、分布均匀。我把它摘抄出来,你可以看看。

int hash(Object key) { 

int h = key.hashCode(); 

return (h ^ (h >>> 16)) & (capicity -1); //capicity表示散列表的大小

}

其中,hashCode() 返回的是 Java 对象的 hash code。

比如 String 类型的对象的 hashCode() 就是下面这样:

public int hashCode() {

  int var1 = this.hash;

  if(var1 == 0 && this.value.length > 0) {

    char[] var2 = this.value;

    for(int var3 = 0; var3 < this.value.length; ++var3) {

      var1 = 31 * var1 + var2[var3];

    }

    this.hash = var1;

  }

  return var1;

}

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,695评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,569评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,130评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,648评论 1 297
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,655评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,268评论 1 309
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,835评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,740评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,286评论 1 318
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,375评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,505评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,185评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,873评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,357评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,466评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,921评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,515评论 2 359