重温数据结构_散列表/哈希表的查找

基本概念

基于线性表、树表结构的查找方法,这类查找方法都是以关键字的比较为基础的。在查找过程中只考虑各元素关键字之间的相对大小,记录在存储结构中的位置和其关键字无直接关系,其查找时间与表的长度有关,特别是当结点个数很多时,查找时要大量地与无效结点的关键字进行比较,致使查找速度很慢。如果能在元素的存储位置和其关键字之间建立某种直接关系,那么在进行查找时,就无需做比较或很少次的比较,按照这种关系直接由关键字找到相应记录。这就是散列查找(Hash Search)的思想,它通过对元素的关键字值进行某种运算,直接求出元素的地址,即使用关键字到地址的直接转换方法,而不需要反复比较。

在记录的存储位置p和它的关键字key之间建立一个确定的对应关系f,使得每个关键字key对应一个存储位置f(key)。建立了关键字与存储位置的映射关系,公式如下:
             p = f(key)
这里把这种对应关系f称为散列函数(哈希(Hash)函数),p为散列地址。详情见:Java中hashCode的作用

一块连续的存储空间中,用以存储按散列函数计算得到相应散列地址的数据记录。这块连续存储空间称为散列表或哈希表。通常散列表的存储空间是一个一维数组,散列地址是数组的下标。

散列查找法主要研究以下两方面的问题:

  1. 如果构造散列函数;
  2. 如何处理冲突。

散列函数的构造方法

直接定址法

可以取关键字的某个线性函数值为散列地址,即:
f(key) = a × key + b
例如:有一个从1到100岁的人口数字统计表,其中,年龄作为关键字,哈希函数取关键字自身。
f(key) = key。

这样的散列函数优点就是简单、均匀,也不会产生冲突,但问题是这需要事先知道关键字的分布情况,适合査找表较小且连续的情况。由于这样的限制,在现实应用中不常用。

数字分析法

数字分析法通过适合处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布比较均匀,就可以考虑用这个方法。

比如11位的手机号"188****8888",极有可能前7位都是相同的,选择后四位成为散列地址就是不错的选择。

平方取中法

这个方法计算很简单:取关键字平方后的中间几位为哈希地址。
假设关键字是1234,那么它的平方就是1522756,再抽取中间的3位就是227,用做散列地址。

平方取中法比较适合不知道关键字的分布,而位数又不是很大的情况。

折叠法

将关键字分割成位数相同的几部分(最后一部分的位数可以不同),然后取这几部分的叠加和作为散列地址。

比如关键字是1234567890,散列表表长为三位,将它分为四组,123|456|789|0,然后将它们叠加求和123 + 456 + 789 + 0 = 1368,再求后3位得到散列地址368。

折叠法事先不需要知道关键字的分布,适合关键字位数较多的情况。

除留余数法

取关键字被某个不大于哈希表表长m的数p除后所得余数为哈希地址。
H(key)=key MOD p (p<=m)
这方法不仅可以对关键字直接取模,也可以折叠、平方取中后再取模。

很显然,本方法的关键在于选择合适的p,p如果选不好,就可能会容易产生冲突。

根据前辈们的经验,若散列表的表长为m,通常p为小于或等于表长(最好接近m)的最小质数或不包含小于20质因子的合数。

随机数法

选择一个随机函数,取关键字的随机函数值为它的哈希地址,即
H(key)=random(key),其中random为随机函数。通常用于关键字长度不等时采用此法。

散列函数的构造方法小结

在实际应用中,应该视不同的情况采用不同的散列函数,这里只能给出一些考虑的因素来提供参考:

  1. 计算散列地址所需的时间
  2. 关键字的长度;
  3. 散列表的长度;
  4. 关键字的分布情况;
  5. 记录查找的频率。

综合以上等因素,才能决策选择哪种散列函数更合适。

处理散列冲突的方法

无论哈希函数设计有多么精细,都会产生冲突现象,也就是2个关键字处理函数的结果映射在了同一位置上,因此,有一些方法可以避免冲突。

开放定址法(重要)

开放地址法有一个公式:Hi=(H(key)+di) MOD m i=1,2,...,k(k<=m-1)其中,m为哈希表的表长。di 是产生冲突的时候的增量序列。

  • 如果di值可能为1,2,3,...m-1,称线性探测法。
  • 如果di取值可能为1,-1,4,-4,9,-9,16,-16,...kk,-kk(k<=m/2)
    称二次探测法。
  • 如果di取值可能为伪随机数列。称伪随机探测法。

开发定址法处理流程请见:散列冲突处理:开放定址法

总结:
开放定址法的思路就是一旦发生了冲突,就去寻找下一个空的散列地址。

链地址法(拉链法)(重要)

链地址法:简单来说,就是数组加链表的结合。在每个数组元素上都一个链表结构,当数据被Hash后,得到数组下标,把数据放在对应下标元素的链表上。

具有相同函数值的关键字对该散列函数来说称作同义词。
将所有关键字为同义词的记录存储在一个单链表中,我们称这种表为同义词子表,在散列表中只存储所有同义词子表的头指针。

JDK1.8之前HashMap底层结构就是哈希表,并且处理散列冲突的方法使用的是拉链法。

拉链法详情请见:散列冲突处理:链地址法

公共溢出区法

为所有冲突的关键字建立一个公共的溢出区来存放。

在查找时,对给定值通过散列函数计算出散列地址后,先与基本表的相应位置进行比对,如果相等,则查找成功;如果不相等,则到溢出表中进行顺序查找。如果相对于基本表而言,有冲突的数据很少的情况下,公共溢出区的结构对查找性能来说还是非常高的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容