【Java集合类】HashMap（一）- 散列表基础知识

什么是散列表

散列表（Hash table，也叫哈希表），是根据键（Key）直接访问内存储存位置的数据结构。

一般而言，散列表通过一个散列函数将待查找的元素映射为数组下标（散列值，hash值），将元素存储在下标位置，查询时同样用这个散列函数得到下标，这样理论上定位元素的时间复杂度可以到O(1)

散列函数的设计要求

由于散列函数hash()的作用是将查找元素value映射为下标key（散列值），因此有以下基本要求

散列值为非负整数
如果value1 = value2，则hash(value1) = hash(value2)，这一点是必须实现的，否则散列表就失去了基础的查找作用，你先在表中插入了一个value，当你再去寻找时却再也找不到了
如果value1 ≠ value2，则hash(value1) ≠ hash(value2)，这一点也好理解，不同的value应该存到不同的位置。现实情况是这一点不能完美实现，于是出现散列（哈希）冲突

散列冲突的原因

影响散列冲突的因素一般有三点：

散列函数的设计

考虑一个极端情况，假如散列函数是个常数函数：hash() = 0，所有元素都会被映射到下标为0的位置，这种情况下散列冲突就非常严重了

当然谁也不会选这样的散列函数，但是要确保散列函数的结果足够随机，最好接近另一个极端：所有元素都被映射到不同位置

数据本身

我可能设计了一个输出结果很随机的散列函数，可如果输入数据本身被设计过也会造成散列冲突。这就不得不提到一种DoS攻击：哈希洪水攻击。如果有恶意攻击者，掌握了算法细节，专门设计了一批结果冲突的输入数据，使得所有的数据经过散列函数之后到一个槽里，散列表查询时间从o(1)退化成o(n)，就能用很低的成本让服务器宕机

这时只能避免攻击者掌握算法细节，比如研究带密钥的散列函数（Keyed Hash Function）

装载因子

另外，数据量和散列表容量的比重也会对散列冲突有影响，把10条数据分别插入容量为1，100、10w的散列表，第一种情况肯定会有散列冲突，而表的容量越大，冲突的概率也越小。这里数据量和散列表容量的比重也称为装载因子

之后HashMap的讲解中，我们将看看它是如何设计，从而尽量避免散列冲突，以及解决已存在的散列冲突的

解决已经发生的散列冲突

开放寻址法

线性探测法：核心思想就是查找散列表中离冲突单元最近的空闲单元（hash(x)冲突，就注意探测hash(x)+1, hash(x)+2），并且把新的键插入这个空闲单元。同样的，查找也同插入如出一辙：从散列函数给出的散列值对应的单元开始查找，直到找到与键对应的值或者是找到空单元。需要注意的问题是：
- 查找元素时，遇到散列冲突，会逐个探测邻近单元，直到查到null就认为元素不存在
- 由上一点可知，删除元素时，不能直接置为null，而是要标记为deleted。因为置为null会导致之后查找探测到该位置时，会判断元素不存在，而实际上元素可能就在后面的单元中。
- 插入元素时，遇到deleted的元素可以覆盖
结合这三点可以看出，线性探测法中，所有发生散列冲突的元素（包括已删除的元素）一定是连续保存在散列表中，中间不会有null值打断。

也因此，线探探测法有以下的问题：
- 数据聚集：散列值本来就不会均匀分布在下标中，线性探测法会加剧聚集的现象，让某个区域冲突概率特别大，查询的时间会更长，极端情况下插入和查询都会到O(n)
为了改进数据聚集，其他开放寻址法还有：
二次探测法：和线性探测相比步长变了，hash(key)+0，hash(key)+1^2， hash(key)+2^2...…
双重探测法：使用一组散列函数 hash1(key)， hash2(key)，hash3(key)......我们先用第一个散列函数，如果计算得到的存储位置已经被占用，再用第二个散列函数

拉链法（链表法）

将散列到同一个存储位置的所有元素保存在一个链表中，是HashMap使用的思想

两种方法的比较

开放寻址法
- 优点：
  - 数据都存储在数组中，可以有效地利用 CPU 缓存加快查询速度（连续空间）
  - 序列化更简单，链表法包含指针，序列化没那么容易
- 缺点
  - 删除数据的时候比较麻烦
  - 所有数据都存在一个数组里，尤其装载因子大的时候，探测时间会很长（因为这条探测的路径上除了散列值相同的元素，还可能会遇到其他不同的元素）
总结：数据量不大，用开放寻址法。这也是 Java 中的ThreadLocalMap使用开放寻址法解决散列冲突的原因。
链表法
- 优点：
  - 对大装载因子的容忍度更高，探测的路径上只会有散列值相同的元素。极端的例子：第一次插入散列值为a的元素，后面n-2次都没冲突，第n次的元素散列值也是a但是和第一个元素key不同。这样在查找第n个元素时，线性探测法就是n，但链表法就是1
  - 链表本身要存指针，消耗更多内存，但是如果本来就要存大对象，指针大小也就可以忽略不计了
总结：适合大数据量、大对象，并且更灵活，可以用红黑树代替链表进行查询优化

最后编辑于：2023.02.21 20:33:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,295评论 6赞 512
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,928评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,682评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,209评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,237评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,965评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,586评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,487评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,016评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,136评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,271评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,948评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,619评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,139评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,252评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,598评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,267评论 2赞 358