数据结构与算法--散列表

数据结构与算法--散列表

之前学习了基于链表的顺序查找、基于有序数组的二分查找、二叉查找树、红黑树,这些算法在查找某个key时,都免不了在所有键值对中一一比较或者折半比较。有没有办法通过key直接定位到value呢?好比你要去隔壁班找你的好朋友二狗,你可以挨桌子一个个找,也可以站在讲台上一排排扫视,这样的查找速度好比顺序查找和二分查找;当然你可以站在教室外面,托个同学叫他出来,这样你就直接找到他了。比喻可能不太恰当,不过只要意识到这是一种比顺序查找和二分查找都要直接要快的方法就好了,它就是即将要学习的散列表。

散列表顾名思义,元素的位置是分散且无序的,因此散列表并不适合范围查找。

如果将键作为数组的索引,那么所有查找只需访问一次内存即可完成,所以使用散列技术的算法第一步是将各种类型的键通过一个函数映射成非负整数(数组索引非负),这个整数称为散列值。这个函数称为散列函数。理想情况下,不同的键能转化成不同的散列值;然而也存在多个键转化成了相同的散列值的情况,此时发生了碰撞冲突因此散列算法的第二步就是处理碰撞冲突。一般解决方法是拉链法和线性探测法。

键的种类各种各样,我们都需要将其转化为一个非负整数。如果键是非负int型,我们可以直接将键作为数组索引——即散列值f(key) = key,但是键可能非常大,比如1,000,000,难道要使用占用空间这么大的数组吗?我们希望对于任意键都能将其散列到一个固定的区间。一个简单但应用广泛的方法是除留余数法。即对于任意非负整数k,k % M一定将键有效地分布在了[0, M-1]的范围内。这里M的选用最好是素数,能够有效利用键中包含的信息,更容易均匀的散列散列值。

如上图所示,M=97比M=100时散列得更均匀,因此碰撞出现的几率也会低一些。

如果键浮点数,可以将浮点数转化成二进制数后再使用除留余数法。

如果键是字符串,因为字符串中每个字符都对应一个ASCII码,在Java中通过charAt方法可以返回一个非负16位整数(即无符号的两个字节)。可以用一个线性函数将所有字符都利用起来得到一个值,最后再利用除留余数法得到散列值。

总之对于各种各样的类型,我们总有办法将其转化成一个非负整数。当然在Java中就更简单了:Java为每种类型都定义了hashCode方法,表示每个对象的内存地址,这个地址是有符号的32位整数,为了得到非负整数只需屏蔽最高位的符号位取余下的31位即可,然后再使用除留余数法得到散列值,如下

private int hash(Key key) {
    return (key.hashCode() & 0x7fffffff) % M;
}

一个优秀的散列函数需要满足以下条件:

  • 一致性——等价的键必然产生相等的散列值
  • 高效性——计算简单
  • 均匀性——均匀地散列所有的键

不过使用Java内置库的hashCode方法,以上条件都可以不用我们去操心——它已经足够优秀了。

关于hashCode方法,补充一句。hashCode方法必须和equals方法逻辑一致。也就是说如果a.equals(b),必须保证a.hashCode() == b.hashCode(),这表示两个相同的键其散列值也相等;但是反过来,如果两个对象的hashCode相同,不一定有a.equals(b),这表示发生了碰撞冲突,必须通过equals方法来比较,不过如果两个对象的hashCode不相同,这两个对象一定不相同。

基于拉链法的散列表

拉链法的思想:将键转换成数组索引,如果键不冲突在数组中的索引自然也不一样;如果发生了碰撞,只需在该索引的链表中查找即可。于是拉链法的数据结构就很简单了,建立一个大小为M或者可调整大小的数组,每个索引都拥有一条链表,每个索引对应的链表里的键散列值全都是相同的——换句话说,只要遇到碰撞,比如多个键散列值都是k,就将这些键统统插入到数组索引为k的那条链表中。这实现起来很简单,只需让每个索引都关联一个基于链表的顺序查找符号表即可,这个符号表以前就写过了,直接拿来用。

拉链法中,使用M个索引存放N个键值对,通常来说N比M要大,因此链表的平均长度为N / M,即使是在最坏情况——所有键散列值都相同,那么这个所谓的散列表也变成了普通的顺序查找符号表——链表的平均长度依然是(N+0+0...+0) / M = N / M,因此可以说在平均情况下插入和未命中的查找所需的比较次数为~N/M。

实现很简单,如下

package Chap8;

import java.util.HashSet;
import java.util.Iterator;
import java.util.Set;

public class SeparateChainingHashST<Key, Value> {

    private int M; // 散列表的大小
    private int N; // 键值对的个数
    private SequentialST<Key, Value>[] st; // 存放链表的数组

    public SeparateChainingHashST(int M) {
        this.M = M;
        st = (SequentialST<Key, Value>[]) new SequentialST[M];
        // 每个索引都有一条链表
        for (int i = 0; i < st.length; i++) {
            st[i] = new SequentialST<>();
        }
    }

    public SeparateChainingHashST() {
        this(31);
    }

    private int hash(Key key) {
        return (key.hashCode() & 0x7fffffff) % M;
    }

    public void put(Key key, Value value) {
        if (N >= M / 2) {
            resize(2 * M);
        }
        st[hash(key)].put(key, value);
        N++;
    }

    public Value get(Key key) {
        return st[hash(key)].get(key);
    }

    public Value delete(Key key) {
        Value value = st[hash(key)].delete(key);
        N--;
        if (N > 0 && N <= M / 8) {
            resize(M / 2);
        }
        return value;
    }
    // 每条链表中的键都加到一个集合中
    public Set<Key> keys() {
        Set<Key> keys = new HashSet<>();
        for (int i = 0; i < M; i++) {
            keys.addAll(st[i].keys());
        }
        return keys;
    }

    public boolean isEmpty() {
        return N == 0;
    }

    public boolean contains(Key key) {
        return st[hash(key)].contains(key);
    }

    public int size() {
        return N;
    }

    private void resize(int max) {
        SeparateChainingHashST<Key, Value> temp = new SeparateChainingHashST<>(max);
        // 所有键值对重新插入,可保证每个索引的链表长度保持在一个小的常数范围内
        for (Key key : keys()) {
            temp.put(key, get(key));
        }
        // 更新散列表的大小
        M = temp.M;
        // 更新散列表
        st = temp.st;
    }

    @Override
    public String toString() {
        Iterator<Key> keys = keys().iterator();
        if (isEmpty()) {
            return "{}";
        }
        StringBuilder sb = new StringBuilder();
        sb.append("{");
        while (true) {
            Key key = keys.next();
            sb.append(key).append("=").append(get(key));
            if (!keys.hasNext()) {
                return sb.append("}").toString();
            } else {
                sb.append(", ");
            }
        }

    }

    public static void main(String[] args) {
        SeparateChainingHashST<String, Integer> a = new SeparateChainingHashST<>();
        a.put("a", 1);
        a.put("b", 2);
        a.put("c", 3);
        a.put("d", 4);

        a.delete("c");
        System.out.println(a.keys());
        System.out.println(a.size());
        System.out.println(a);
    }
}

我们采用了可动态调整大小的数组,实际上如果你知道将要插入的键值对的大概值,那么直接在初始化的时候选定一个合适的M值就可以了,不仅能保证容量足够还能使得散列更加均匀,因此数组容量的调整就不必要了。如果你不清楚插入的键值对的多少,为了防止数组脚标越界,可以采用上面的实现,具体来说是新建一个SeparateChainingHashST将所有键值对重新插入到这个新的散列表中,之后更新st和M的值即可。这样可保证链表的平均长度为2到8之间(代码中调整大小的参数为M / 2和8 / M),一言以蔽之:调整数组大小在拉链法中并不是必须的。

上面的各个方法,只是简单地间接调用SequentialST的各个方法而已,没有什么难度,就不再解释了。

基于线性探测法的散列表

实现散列表的另一种方式使用大小为M的数组保存N个键值对,其中M > N,这保证了数组中总是有空位,利用这些空位解决碰撞冲突,基于此策略的所有方法称作开放地址散列表

开放地址散列表中最简单的方法叫线性探测法,当发生碰撞时,直接检查数组的下一个位置是不是空位,如果是就存放于此;如果不是空位继续看下一个位置;当检查完数组最后一个元素时,折返回数组的开头继续检查是否有空位。因此这些空位也是查找结束的标志。千万不可让键值对充满整个数组,这会因为没有空位导致查找不会停止,陷入死循环。

键值对在数组中的存放情况如下图所示,可以看到有很多空位。

实现也不难,像二分查找中那样,使用了并行数组keys[]values[]分别存放键和值。

package Chap8;

import java.util.HashSet;
import java.util.Iterator;
import java.util.Set;

public class LinearProbingHashST<Key, Value> {
    private int N; // 键值对的个数
    private int M; // 散列表的大小
    private Key[] keys;
    private Value[] values;

    public LinearProbingHashST(int cap) {
        M = cap;
        keys = (Key[]) new Object[cap];
        values = (Value[]) new Object[cap];
    }

    public LinearProbingHashST() {
        this(31);
    }

    private int hash(Key key) {
        return (key.hashCode() & 0x7fffffff) % M;
    }

    public void put(Key key, Value value) {
        if (N >= M / 2) {
            resize(2 * M);
        }
        int i;
        // 碰撞冲突,看下一个位置,如果这个过程中发现键已经存在,则更新并直接返回
        for (i = hash(key); keys[i] != null; i = (i + 1) % M) {
            if (keys[i].equals(key)) {
                values[i] = value;
                return;
            }
        }
        // 若干位置后的第一个空位,插入新键值对
        keys[i] = key;
        values[i] = value;
        N++;
    }

    public Value get(Key key) {
        // 碰撞冲突,看下一个位置,如果这个过程中发现键已经存在,则更新并直接返回
        for (int i = hash(key); keys[i] != null; i = (i + 1) % M) {
            if (keys[i].equals(key)) {
                return values[i];
            }
        }
        return null;
    }

    public Value delete(Key key) {
        Value value = null;
        int i = hash(key);

        while (keys[i] != null) {
            if (keys[i].equals(key)) {
                value = values[i];
                break;
            }
            i = (i + 1) % M;
        }
        // 找到键了,删除键值对
        keys[i] = null;
        values[i] = null;
        // 删除后,这条键簇中,i之后的键值对都需要重新插入
        // 因为get方法终止循环的条件是keys[i] != null,删除后键簇中那个位置是空位,之后的键都访问不到了
        i = (i + 1) % M; // i之后的第一个位置
        // 对这条键簇i之后的进行重新插入
        while (keys[i] != null) {
            Key keyRedo = keys[i];
            Value valueRedo = values[i];
            // 删了再插入
            keys[i] = null;
            values[i] = null;
            N--;
            put(keyRedo, valueRedo);

            i = (i + 1) % M;
        }

        N--;
        if (N > 0 && N <= M / 8) {
            resize(M / 2);
        }
        return value;
    }

    private void resize(int max) {
        LinearProbingHashST<Key, Value> temp = new LinearProbingHashST<>(max);
        // 所有键值对重新插入,可保证每个索引的链表长度保持在一个小的常数范围内
        for (int i = 0; i < M; i++) {
            if (keys[i] != null) {
                temp.put(keys[i], values[i]);
            }
        }
        // 更新散列表的大小
        M = temp.M;
        // 更新散列表的键和值
        keys = temp.keys;
        values = temp.values;
    }

    public Set<Key> keys() {
        Set<Key> keySet = new HashSet<>();
        for (int i = 0; i < M; i++) {
            if (keys[i] != null) {
                keySet.add(keys[i]);
            }
        }
        return keySet;
    }

    public boolean isEmpty() {
        return N == 0;
    }

    public int size() {
        return N;
    }

    public boolean contains(Key key) {
        return get(key) != null;
    }

    @Override
    public String toString() {
        Iterator<Key> keys = keys().iterator();
        if (isEmpty()) {
            return "{}";
        }
        StringBuilder sb = new StringBuilder();
        sb.append("{");
        while (true) {
            Key key = keys.next();
            sb.append(key).append("=").append(get(key));
            if (!keys.hasNext()) {
                return sb.append("}").toString();
            } else {
                sb.append(", ");
            }
        }

    }

    public static void main(String[] args) {
        LinearProbingHashST<String, Integer> a = new LinearProbingHashST<>();
        a.put("a", 1);
        a.put("b", 2);
        a.put("c", 3);
        a.put("d", 4);

        a.delete("c");
        System.out.println(a.keys());
        System.out.println(a.size());
        System.out.println(a);
    }
}

同样采用了可调整大小的数组方案,我们将看到,这种做法在线性探测法中尤为重要。

键簇

元素在插入数组中会聚集成一条条连续的条目,也叫做键簇。例如在上图中,插入键C就产生了一个长度为3的键簇(ACS),之后要插入H需要探测4次,因为H的散列值和A相同,需要从此处开始往后探测数组中的空位,可以预见,键簇越长,插入和查找效率越低,因此保证短小的键簇能提高效率,所以在适当时候对数组调整容量变得尤为重要α = N / M表示数组的使用率,上面代码实现中保证了数组使用率始终维持在1 / 8 ~ 1 / 2,因此产生的键簇不会很长。下图可以反映数组使用率对键簇长度的影响。

在查找中也是一样,根据给定的key得到散列值,在数组中从该散列值开始往后探测,直到遇到空位,此时有一个问题,需要跳过空位和后面的键继续比较吗?答案是否定的,根据插入时候的规律,新插入的键key总是和key的散列值所在位置处于同一条键簇(因为它是沿着这条键簇直到末端遇到空位才插入的),因此查找结束于这条键簇的末端就行了,后面的键肯定不会包含这个要查找的键。

然后是删除操作,仅仅把该键所在位置的键值置null是不够的,因为get操作是沿着键簇进行的,在这条键簇上直到遇到null查找结束。因此如果单纯把该键的位置置null,那么同在这条键簇的该键位置之后所有键都访问不到了。仔细理解下这句话。举个例子,比如我们删除键C之后查找H,H的散列值是4需要从A开始探测,对于ACSH这条键簇,C现在是null了,因此查找结束于此,根本就get不到H。为此,需要将处于同一条键簇中被删除键的位置之后的所有键重新插入一次。这些话理解了,再回头看delete方法应该就一目了然了。


by @sunhaiyu

2017.10.23

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容

  • 本文主要介绍散列表(Hash Table)这一常见数据结构的原理与实现。由于个人水平有限,文章中难免存在不准确或是...
    absfree阅读 16,301评论 2 35
  • 9.3.3 快速排序   快速排序将原数组划分为两个子数组,第一个子数组中元素小于等于某个边界值,第二个子数组中的...
    RichardJieChen阅读 1,842评论 0 3
  • 1 序 2016年6月25日夜,帝都,天下着大雨,拖着行李箱和同学在校门口照了最后一张合照,搬离寝室打车去了提前租...
    RichardJieChen阅读 5,089评论 0 12
  • Java8张图 11、字符串不变性 12、equals()方法、hashCode()方法的区别 13、...
    Miley_MOJIE阅读 3,698评论 0 11
  • 散列表是支持 INSERT 、DELETE 和 SEARCH 的字典操作,其是对普通数组概念的推广,因为可以对数组...
    点融黑帮阅读 864评论 0 11