如何在 Scala 中科学地操作 collection(二)集合性能比较

在平时使用集合的时候,我们经常会选择 Scala 中通用的集合,例如:SeqMapList等等,有的时候选择「通用集合」完全可以解决问题,但是当集合操作变得很复杂以至于涉及到「性能问题」的时候,采用「通用集合」可能并不是一个好的选择。在不同的场景下选择合适的集合可以使我们对于集合的操作更加高效。

大部分情况下,我们都会优先采用「不可变集合」,所以本文将通过比较几种常见的「不可变集合」来阐述各个集合之间的性能差异。

Set

通过上图可以看到,两种常用的类型:TreeSetHashSet 都继承至 Set

TreeSet

TreeSet 是用「红黑树」来实现的,「红黑树」是一种相对平衡的二叉查找树,它可以在 O(log2 n) 时间复杂度内做查找,例如:

val s = scala.collection.immutable.TreeSet(1, 2, 4, 5, 7, 8, 11, 14, 15)
s: scala.collection.immutable.TreeSet[Int] = TreeSet(1, 2, 4, 5, 7, 8, 11, 14, 15)

则其对应的红黑树为:

从上面「红黑树」的结构可以看到在对 TreeSet 进行查找或者修改操作时,其时间复杂度为 O(log2 n)

HashSet

HashSet 是用 Hash Trie 来实现的,从表现形式上可以将 HashSet 看作是一种树结构,该树的每个节点包含32个元素或者32个子树,每个节点都存储相应的 hashcode ,为了方便描述这种结构我们先定义一个 HashSet 的实例,并将该实例用图表现出来:


scala> val s = scala.collection.immutable.HashSet(1, 3, 33, 35, 50, 289, 306, 1057)
s: scala.collection.immutable.HashSet[Int] = Set(289, 1, 1057, 33, 306, 3, 35, 50)

看到上面的代码,我们或许会有一个疑问,就是得到的 HashSet 中各个元素的顺序好像变了,这是因为在实现 HashSet 时,元素的顺序不是按照我们给定的顺序来的,而是根据元素对应的 hashcode 来决定的,在 HashSet 中,元素的 hashcode是通过下面的操作得到的:


def getHashCode(key: Int) = {
    val hcode = key.##
    var h: Int = hcode + ~(hcode << 9)
    h = h ^ (h >>> 14)
    h = h + (h << 4)
    h ^ (h >>> 10)
}

为了方便理解,我们这里规定元素的 hashcode 就是它本身,那么之前的代码就变成了:


scala> val s = scala.collection.immutable.HashSet(1, 3, 33, 35, 50, 289, 306, 1057)
s: scala.collection.immutable.HashSet[Int] = Set(1, 33, 1057, 289, 3, 35, 50, 306)

其对应的树结构为:


通过上图,我们可以看到「树」的每个节点都存储相应的 hashcode,在这棵「树」上查找某个值时,首先用该元素对应的 hashcode 的最后 5bit 查找第一层「子树」,然后毎 5bit 找到下一层 「子树」。当存储在一个节点中所有元素的代表他们当前所在层的 hashcode 位都不相同时,查找结束。例如:

如果我们要查找数字 1057 是否在这棵「树」上面:

  1. 1057 转换为 「二进制」,我们得到 00001 00001 00001,然后取出最后的 5bit00001

  2. 查找第一层「子树」,找到 00001 对应的节点,该节点有三个「孩子」,所以我们要进入下一层,接下来取出第二个「五位」:00001

  3. 查找第二层「子树」,找到 00001 对应的节点,该节点有两个「孩子」,所以我们要进入下一层,接下来取出第三个「五位」:00001

  4. 查找第三层「子树」,找到 00001 对应的节点,该节点就只有一个元素 1057,所以我们找到了。

在这棵树中,我们查询 1057 的时间复杂度为 O(3),由于 Hashset 中的每一个节点都可以有 32 个分支,所以其在查询或者修改等操作时的效率会大大提高,例如:对于一个拥有100万个元素的 HashSet,我们只需要四层节点。(因为106 ≈ 324),我们在查询其中的某一个元素时,最多只需要 O(4) 的时间复杂度,而采用 TreeSet 就需要 O(20) 的时间复杂度,所以在不出现「哈希碰撞」的情况下(在日常开发中使用 HashSet 极少会出现「哈希碰撞」),HashSet 的随机访问时间复杂度为 log32 n,比前面介绍的 TreeSet 要好。

总结

通过前面我们对两种 Set 的比较,我们可以得出:

  1. 当集合中元素不是很多,而且对效率要求不高的时候,选择通用的 Set 就可以解决问题;

  2. 当元素数量非常庞大,并且对效率要求比较高的时候,我们一般选择 HashSet

  3. 当选择 HashSet 时,出现很严重的 「哈希碰撞」时,采用 TreeSet

Map

如上图所示,Map 支持三种类型:HashMapTreeMapListMap,其中比较常用的是前面两种。

HashMap、TreeMap

HashMap 与我们前面提到的 HashSet 结构类似,同样,TreeMapTreeSet 结构类似,一般情况下,优先选择 HashMap

ListMap

ListMap 是一种「链表」结构,在对其中的元素进行操作的时候,我们通常都会去遍历其中的元素,所以其查询、修改等操作的时间复杂度也同列表长度成「线性关系」,一般情况下,在 Scala 中,我们很少使用 ListMap,只有当 Map 中处在前面的元素的访问频率远远大于处在后面的元素时,才会采用 ListMap

总结

  1. 当集合中元素不是很多,而且对效率要求不高的时候,选择通用的 Map 就可以解决问题

  2. 当元素数量非常庞大,并且对效率要求比较高的时候,我们一般选择 HashMap

  3. 当选择 HashSet 时,出现很严重的 「哈希碰撞」时,采用 TreeMap

  4. Map 中处在前面的元素的访问频率远远大于处在后面的元素时,采用 ListMap

Seq

通过上图可以看到,两种常用的类型:VectorList 都继承至 Seq

Vector

Vector 的结构与我们前面提到的 HashSet 非常的类似,我们可以将 Vector 看成是由元素的「下标」组成的「前缀树」,该树的每个节点也包含32个元素或者32个子树,每个节点存储相应下标对应的元素以及具有相同「前缀」的「孩子」,为了方便描述,我们依然先定义一个 Vector 的实例:


scala> val v = (0 to 1057).toVector
v: Vector[Int] = Vector(0, 1, 2, 3, ... , 1057)

我们定义了一个具有 1058 个元素的 Vector,每一个元素的下标与该元素的值相等。接下来我们用图将该实例表现出来:

上图展示了实例中的部分元素,可以看到具有相同「前缀」的元素拥有相同的「父亲」,例如:

元素 333550对应的「二进制」分别是:00001 0000100001 0001100001 10010,它们的「高五位」也就是「前缀」都是 00001

现在我们查找其中的某个元素 1057

  1. 1057 对应的下标是 1057,转换为二进制为:00001 00001 00001

  2. 1057 最高五位也就是第一个前缀为 00001,在第一层「子树」中找到 00001 对应的节点;

  3. 第二个五位也就是第二个 「前缀」是 00001,则在第二层「子树」中找到 00001 对应的节点;

  4. 最后一个五位是 00001,在第三层子树中找到 00001 对应的节点,则该元素存在于这个节点中。

可以看到我们查询 1057 的时间复杂度为:O(3),由于 Vector 也是采用具有 32 分支的树结构,所以它的查询、修改等操作的时间复杂度也是 log32 n,由于下标不会重复,所以不会像 HashSet 那样出现 「哈希碰撞」,所以它的效率比 HashSet 要好。

Scala 中使用集合的时候,如果没有特别的要求,我们应该首先选择 Vector。当然,vector 也有不适用的场景,如果我们要频繁地执行一个集合的「头」和「尾」的操作,选择 Vector 就不太好了,这时我们可以选择 List

List

在日常开发中我们使用 List 的频率非常高,List 是个 「单链表」结构,其中的每个节点都可以看作是一个「格子」,每一个「格子」持有两个引用,一个引用指向值,另一个引用指向后续的元素。


scala> val l = List(1, 2, 3)
l: List[Int] = List(1, 2, 3)

其结构用图表示出来为:

List 只有在操作 「头部」和「尾部」时具有 O(1) 的复杂度,如果列表中的元素非常多,那 List 的效率远远不如前面提到的 Vector,所以只有当我们需要频繁操作集合中的首尾元素时,才去选择 List,大部分情况下, Vector 应该是我们缺省的选择。

总结

  1. 一般情况下,优先采用 Vector

  2. 只有在头尾操作非常频繁的时候选择 List

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容

  • Java集合框架 Java平台提供了一个全新的集合框架。“集合框架”主要由一组用来操作对象的接口组成。不同接口描述...
    小石38阅读 359评论 0 0
  • 集合框架体系概述 为什么出现集合类?方便多个对象的操作,就对对象进行存储,集合就是存储对象最常用的一种方法. 数组...
    acc8226阅读 768评论 0 1
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,598评论 18 399
  • (一)Java部分 1、列举出JAVA中6个比较常用的包【天威诚信面试题】 【参考答案】 java.lang;ja...
    独云阅读 7,083评论 0 62
  • 出去看猫头鹰,不需要说话,不需要温暖舒适,也不需要别的什么,只要心中有一个希望。爸爸是这么说的。那个希望,会用没有...
    陈蕾FZ阅读 838评论 0 51