数据结构与算法之美笔记——跳表

摘要:

跳表是基于链表的数据结构,查找、插入及删除数据时间复杂度都为 O(\log{n}),空间复杂度为 O(n),也是利用了空间换时间的概念提高了链表的执行效率。

基于链表的二分查找

在之前的文章有提到过二分查找基于链表实现时会导致算法效率严重下降,但 O(\log{n}) 的执行效率实在诱人,难道链表没有办法在不降低二分查找执行效率的基础上实现它吗?链表肯定有相应的解决方案,但需要使用基于链表扩展的数据结构「跳表」(Skip list)。

跳表的英文名「Skip list」中的 list 表示它是基于链表的,那在链表的基础上是如何实现 Skip 的呢?链表随机访问某个结点效率低的原因是需要遍历目标结点之前的所有结点,如果我们将链表中的两个结点归为一个区域,查找结点时先查找所在区域,再在区域的小范围数据中查找目标结点,效率肯定提升很多,两个结点抽取形成的区域当然也使用链表实现。举个例子,如果当前链表有 10 个结点,此时查找第 8 个结点需要遍历 8 次,我们将每两个结点抽取成一个结点形成区域,区域的结点个数就是 5 个,查找原链表上第 6 个结点可以先在区域链表上查找,对应的是第 4 个结点的区域,再在此区域的原链表上查找,总共只用查找 5 次结点。

既然对链表抽取区域后可以提高执行效率,如果对区域链表进行同样的操作执行效率会发生怎样的变化?接着上面的例子,对第二级链表进行两个结点抽取成一个结点形成区域,形成的链表有 3 个结点,依然是查找第一级链表的第 8 个结点,这次只需要查找 4 次,所以执行效率是提升的。

其实抽取结点形成的区域链表和索引是类似的,也可以认为抽取出的链表都是原链表的索引链表。之前举的例子数据量不大,能够抽取的索引级数也较少,效果不太明显,如果将数据量扩大到 32 个,原始链表查找第 31 个结点时需要遍历 31 次,我们将索引的级数增加,直至索引链表的结点个数为 2,此时查找原链表上第 31 个结点只需要查找 5 次,可以看出查找的效率在提取索引后得到了极大的提升。

跳表的时间复杂度

从上面的例子中可以看出跳表的执行效率极高,但具体多高就需要分析一下跳表的时间复杂度了。我们从两个结点提取一个结点作为索引链表的结点,索引链表的结点数是前一级链表结点数的 \frac{1}{2},假设有一个链表结点个数为 n,它的第一级至第 k 级索引链表的结点个数依次为 \frac{n}{2},\frac{n}{4},\frac{n}{8},...,\frac{n}{2^k},第 k 级索引链表为 2 个结点,所以满足如下数学关系。

\frac{n}{2^k}=2
2^{k+1}=n
k=\log_2{n}-1

因此一个结点个数为 n 的链表可以提取出 \log_2{n}-1 级索引,加上原始链表这一级总共有 \log_2{n} 级链表。当我们在此跳表中查找目标结点时每级链表最多需要遍历 m 个结点,总共需要查找 m\times\log_2{n} 次结点,但 m 是多少呢?假设需要查找的目标数据为 x,从跳表的最高一级(以下称为 h 级)索引开始查找,h 级索引只有两个结点(从头结点开始,依次称为 y 和 z 结点),x 的情况要不就是处于 y 与 z 之间,要不就是大于 z,如果小于 y 那 x 肯定不存在于原始列表中。因为索引是由下一级索引抽取两个结点为一个结点形成,所以无论 x 处于 y 与 z 之间还是大于 z,在 h - 1 级索引中最多只需查找 3 个结点(y 结点,z 结点及 y 和 z 的中间结点)就可以知道 x 处于哪个区域,以此类推,每一级目标数据的查找最多只用遍历 3 个结点,所以 m 等于 3,跳表查找操作的时间复杂度也就是 O(3\times\log_2{n})=O(\log{n})

跳表除了查找操作外还有插入和删除操作。链表进行插入和删除操作时间复杂度是 O(1),但在插入和删除前需要查找数据插入位置或需要被删除的结点,导致时间复杂度降低为 O(n),跳表通过索引将查找的时间复杂度提高到了 O(\log{n}),而单纯插入和删除操作的时间复杂度不变,依然是 O(1),所以跳表插入和删除的时间复杂度是 O(log{n}),跳表无论是查找还是插入和删除操作都是极为高效的。

用了多少空间换时间

跳表利用索引获得了 O(\log{n}) 的高执行效率,但索引也是数据的一种,需要额外的存储空间,所以跳表利用了空间换时间,那跳表的空间复杂度是多少?

通过对跳表时间复杂度分析我们知道,一个 n 个结点的链表,它的第一级至第 k 级索引链表的结点个数依次为 \frac{n}{2},\frac{n}{4},\frac{n}{8},...,\frac{n}{2^k},且 k=\log_2{n}-1,所有的索引链表结点个数之和为 \frac{n}{2}+\frac{n}{4}+\frac{n}{8}+...+\frac{n}{2^k}=\frac{n}{2}\times{\frac{1-\frac{1}{2^k}}{1-\frac{1}{2}}}=n-\frac{n}{2^k}=n-2,所以跳表的时间复杂度为 O(n)

面对跳表的多级索引需要如此多额外存储空间的情况我们需要优化一下。因为之前分析的都是两个结点抽取为一个索引结点的情况,如果将 3 个结点抽取一个索引结点,索引结点的数量肯定会下降,这种情况下最高级索引有一个结点,所以索引级数 k 等于 \log_3{n},而索引结点个数为 \frac{n-1}{2},虽然空间复杂度也是 O(n),但 3 个结点抽取一个索引结点需要的额外存储只有两个结点抽取一个索引时的一半,但这种方式会使查找的执行效率出现下降,所以时间和空间消耗上需要做出平衡。

索引动态更新

跳表不仅支持查找操作,同时也支持插入和删除操作,但插入和删除操作会产生一些意外情况。当一直插入数据时,会导致索引结点间的结点数量增加,极端情况下会使跳表退化为链表;当被删除结点也是索引结点时,索引结点也应该被删除,所以跳表的插入和删除操作都应该对跳表索引动态更新。

对跳表进行插入操作时,为了避免索引结点间的结点数量不平衡情况,在插入结点时需要决策此结点是否要抽取为索引结点以及抽取到哪级索引,跳表使用「随机法」解决这个问题。随机法是生成一个随机数 k,k 表示当前插入结点需要抽取为第 1 至 k 级索引的索引结点,跳表的插入操作通过这种方式维持索引的平衡。

代码实现

public class SkipList {
    private static final int MAX_LEVEL = 16;

    private Node head = new Node();
    private int levelCount = 1;
    private Random random = new Random();

    public void insert(int value) {
        // get random level and init node
        int level = randomLevel();
        Node node = new Node();
        node.value = value;
        node.maxLevel = level;

        // init update arrays
        Node[] update = new Node[levelCount > level ? levelCount : level];
        for(int i = 0; i < level; i++) {
            update[i] = head;
        }

        // get all previous node of inserted node
        Node prev = head;
        for(int i = levelCount - 1; i >= 0; i--) {
            while(prev.forwards[i] != null && prev.forwards[i].value < value) {
                prev = prev.forwards[i];
            }
            update[i] = prev;
        }

        // insert node to all level linked list
        for(int i = 0; i < level; i++) {
            node.forwards[i] = update[i].forwards[i];
            update[i].forwards[i] = node;
        }

        if(levelCount < level) {
            levelCount = level;
        }
    }

    public Node find(int value) {
        // find previous node of target node
        Node prev = head;
        for(int i = levelCount - 1; i >= 0; i--) {
            while(prev.forwards[i] != null && prev.forwards[i].value < value) {
                prev = prev.forwards[i];
            }
        }

        if(prev.forwards[0] != null && prev.forwards[0].value == value) {
            return prev.forwards[0];
        }

        return null;
    }

    public void delete(int value) {
        // get all previous node of deleted node
        Node[] update = new Node[levelCount];
        Node prev = head;
        for(int i = levelCount - 1; i >= 0; i--) {
            while(prev.forwards[i] != null && prev.forwards[i].value < value) {
                prev = prev.forwards[i];
            }
            update[i] = prev;
        }

        if(prev.forwards[0] != null && prev.forwards[0].value == value) {
            int i = 0;
            while(update[i].forwards[i] != null && update[i].forwards[i].value == value) {
                update[i].forwards[i] = update[i].forwards[i].forwards[i];
                i++;
            }
        }
    }

    private int randomLevel() {
        int level = 1;
        for(int i = 1; i < MAX_LEVEL; i++) {
            if(random.nextInt() % 2 == 1) {
                level++;
            }
        }

        return level;
    }

    public class Node {
        private int value = -1;
        private int maxLevel = 0;
        private Node[] forwards = new Node[MAX_LEVEL];

        public int getValue() {
            return value;
        }

        @Override
        public String toString() {
            return "{value: " + value +", maxLevel: " + maxLevel + "}";
        }
    }
}

代码中比较不好理解的就是 Nodeforwards 的作用,forwards 是个 Node 数组,它是用来存储此结点在每一级链表中的下一结点,第 n 级链表就对应 forwards 中的第 n 个元素,只要理解了 forwards 的作用也就能够理解跳表各个操作的逻辑。

总结

跳表就是在链表之上建立了多级索引结构,多级索引虽然导致空间复杂度下降为 O(n),但时间复杂度复杂被极好地提升为 O(\log{n})

为了优化跳表的存储消耗,可以考虑 3 个、5 个或更多的点抽取为一个索引点,但这样会使查找操作执行效率下降,所以需要根据实际情况寻找平衡。

跳表除了支持高效的查找操作还支持插入和删除操作,插入和删除操作依然很高效,时间复杂度都是 O(\log{n}),但插入和删除时需要对索引进行动态更新,插入时利用随机法解决这一问题。


文章中如有问题欢迎留言指正
本章节代码已经上传GitHub,可点击跳转查看代码详情。
数据结构与算法之美笔记系列将会做为我对王争老师此专栏的学习笔记,如想了解更多王争老师专栏的详情请到极客时间自行搜索。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容