散列表的基本概念
- 散列函数:一个把查找表中的关键字映射成该关键字对应的地址的函数,记为Hash(key) = Addr
- 冲突:散列函数可能会把两个或两个以上的不同关键字映射到统一地址
- 同义词:这些发生碰撞的不用关键字
- 散列函数的两点要求:1.散列函数应尽量减少这样的冲突 2.设计好处理冲突的方法
- 散列表:根据关键字而直接进行访问的数据结构,建立了关键字和存储地址之间的中直接映射关系
散列函数的构造方法
在构造散列函数时,必须注意以下几点:
1)散列函数的定义域必须包含全部需要存储的关键字,而值域的范围则依赖于散列表的大小或地址范围
2)散列函数计算出来的地址应该能等概率、均匀地分布在整个空间中,从而减少冲突的发生
3)散列函数因尽量简单,能够在较多的时间内计算出任意关键字对应的散列地址
常见的散列函数
方法名 | 函数 | 优点 | 缺点 |
---|---|---|---|
直接定址法 | H(key) = a x key + b | 不会产生冲突 | 关键字分布不均,造成空间浪费 |
除留余数法 | H(key)= key %p | 关键字分布较均匀 | 会产生冲突 |
数学分析法 | 分析关键字集合选取重复概率较小的数位作关键字 | 更换关键字集合需重新构造散列函数 | |
平方取中法 | 取关键字平方值的中间几位作为关键地址 | 散列地址分布较均匀 | |
折叠法 | 将关键字分割成位数相同的几个部分然后取这几个部分的叠加个作为散列地址 |
处理冲突的方法
1.开放地址法
Hi = (H(key)+di)%m
1)线性探测法:di = 0,1,2,3,...,m-1,冲突法发生时,顺序查看表中下一个单元,直到找到一个空闲单元或 查遍全表
2)平方探测法:di = 0*0,1*1,-1*1,2*2,-2*2,...,k*k,-k*k 是一种比较好的处理宏图的方法,可以避免痴线“堆积”问题,它的缺点是不能探测到散列表上的所有大院,但至少能探测到一半单元
3)再散列法:di = Hash2(key)
4) 伪随机序列法:当di = 为随机数序列时
2.拉链法
适合经常进行插入和删除操作