散列表

散列表和数组或者链表一样，都是存储数据的一种数据结构，但是它比数组插入数据的时间复制度要低，比链表查找的时间复制度要低的多，接近O(1)。当然，实现也要比他们要复杂一些。

在介绍散列表之前我们先介绍一种算法，来帮助大家理解散列的思想。

不知道大家有没有学过一个叫做桶排序的排序算法。它的思想是准备些贴好标签（如0-99）的桶，然后，把输入的元素，按大小放入桶中，如元素值为1，则放入标签为1的桶中。当输入元素全部放入桶中后，从按标签顺序从桶取出元素，即是排好序的数组。当然，大家肯定也注意到了，桶排序的局限性，它只能排序整数，且整数的大小范围决定了桶的多少。

然后，我们抽象点来讲，桶排序的思想是将元素按某个映射函数，映射到相应的桶中，再根据映射函数将元素从桶中取出来。

其实散列也是差不多的思想，只是散列用的映射函数更复杂。

试想一下，我们定义了一个大小为1000的存储空间S，插入元素时，用映射函数将元素映射到S的某个位置，插入，时间复制度和链表的插入操作一样。然后，查找该元素时，根据映射函数找到元素的位置，由于位置可以直接根据函数计算，所以时间复杂度和数组的时间复杂度一样。

但是，估计大家也想到了，如果插入了两个相同的元素的话，不就出事了么。实际上，这个问题就叫做hash碰撞。也是我们实现散列表要解决的一个重要问题。

解决办法：

链接法散列：

存储空间S不存储具体的值，而是一个个链表的头指针，重复值都在同一条链表中。

它的好处在于插入操作实现简单。但修改操作复杂。而且在最坏情况下，所有值都被映射到一个位置的话，查找的复杂度就和链表的一样了。
开放寻址法。

通过另一个映射函数，把相同的值的分离。但是你想啊，相同的值，经历两次映射不也是相同的值么。其实我们可以换一种思维，将另一个函数作为选值函数。当我们将元素放入映射函数进行计算之前，要加上选值函数的返回值。而选值函数的参数是发生碰撞的次数。这样，相同的值就可以映射到不同位置了。但是要注意的是，要选择适当的映射函数和选值函数，且存储空间S应当足够大，要不然还是容易发生碰撞，这种碰撞是难以避免的。

选值函数其实可以分为三种，其实不同的选值的计算方法。(i为碰撞次数，k为元素值)
1. 线性
  
  $f = i$
  这种方法的缺陷在于容易产生群集，连续被占用的位置越多，连续查找的时间会越来越长。
2. 二次
  
  $f = i+i^2$

这种方法的也容易产生群集，但是比第一个方法要好一些。

双哈希

$f = i*h(k)$
由于这种方法利用了第二个哈希函数，所以产生群集的可能性较小。当然，如果存储空间不够大，群集还是很容易发生的。

散列表

散列表

散列表

相关阅读更多精彩内容

友情链接更多精彩内容