(转)C#集合类型大揭秘

集合是.NET FCL(Framework Class Library)的重要组成部分,我们平常撸C#代码时免不了和集合打交道,FCL提供了丰富易用的集合类型,给我们撸码提供了极大的便利。正是因为这种与生俱来的便利性,使得我们对集合既熟悉又陌生。很多同学可能一直还是停留在使用的层面上,那么今天我们一起来深入学习一下C#语言中的各种集合。

首先我们看一下 FCL 给我们提供的集合接口:


d7khhhKg0C.png

FCL提供了泛型和非泛型两大类集合类型。因为非泛型集合装箱和拆箱带来的性能开销问题,和泛型集合相比,已经变得越来越鸡肋。所以我们也侧重于泛型集合的分析,但是两者差别不大。

IEnumerable和IEnumerator

1CiFbkmDg6.png

IEnumerable接口是所有集合类型的祖宗接口,其作用相当于Object类型之于其它类型。如果某个类型实现了IEnumerable接口,就意味着它可以被迭代访问,也就可以称之为集合类型(可枚举)。IEnumerable接口定义非常简单,只有一个GetEnumerator()方法用于获取IEnumerator类型的迭代器。


1CiFbkmDg6.png

我们可以将迭代器想象成数据库的游标,即序列(集合)中的某个位置,迭代器只能在序列(集合)中向前移动。每调用一次MoveNext(),如果序列(集合)中还有下一个元素,则迭代器移动到下一个元素;Current用于获取序列(集合)中的当前元素;因为迭代器调用一次代码只需要获取一个元素,这意味着我们需要确定访问到了序列(集合)中的哪个位置。Reset()用于重置这种状态,但是基本上不会使用Reset()重置状态。

同一个序列(集合)可能同时存在多个迭代器操作,相当于同时对一个集合进行多个遍历。这种情况下可能会出现迭代彼此交错。那么如何解决呢?

集合类不直接支持 IEnumerator 和IEnumerator 接口。而是直接支持 IEnumerable接口,其唯一方法是 GetEnumerator,此方法用于返回支持 IEnumerator 的对象。每次调用GetEnumerator()方法时都需要创建一个新的对象,同时迭代器必须保存自身的状态,记录此时已经迭代到哪一个元素。这样迭代器就像是序列中的游标。可以有多个游标,移动其中任何一个都可以枚举集合,与其他迭代器互不影响。

foreach是怎么实现的?

for依赖对 Length 属性和索引运算符 ([]) 的支持。借助 Length 属性,C# 编译器可以使用 for 语句迭代数组中的每个元素。for适用于长度固定且始终支持索引运算符的数组,但并不是所有类型集合的元素数量都是已知的。此外,许多集合类(包括 Stack、Queue 和 Dictionary<TKey ,TValue>)都不支持按索引检索元素。因此,需要使用一种更为通用的方法来迭代元素集合。假设可以确定第一个、第二个和最后一个元素,那么就没有必要知道元素数量,也没有必要支持按索引检索元素。foreach在这种背景下应运而生。实际上,foreach内部使用迭代器的MoveNext和Current完成元素的遍历。

List<int> list = new List<int>();
List<int>.Enumerator enumerator = list.GetEnumerator();
try
{
    int number;
    while (enumerator.MoveNext())
    {
        number = enumerator.Current;
        Console.WriteLine(number);
    }
}
finally
{
    enumerator.Dispose();
}

实现自定义集合

我们可以自己实现IEnumerable接口和IEnumerator接口实现自定义集合。

实现自定义可枚举类型:

public class MySet : IEnumerable
{
    internal object[] values;

    public MySet(object[] values)
    {
        this.values = values;
    }

    public IEnumerator GetEnumerator()
    {
        return new MySetIterator(this);
    }
}

手写实现自定义迭代器:

public class MySetIterator : IEnumerator
{
    MySet set;
    /// <summary>
    /// 保存迭代到的位置
    /// </summary>
    int position;
    internal MySetIterator(MySet set)
    {
        this.set = set;
        position = -1;
    }

    public object Current
    {
        get
        {                   
            if(position==-1||position==set.values.Length)
            {
                throw new   InvalidOperationException();
             }
             int index = position;
             return set.values[index];
         }
    }

    public bool MoveNext()
    {
        if(position!=set.values.Length)
        {
            position++;
        }
        return position < set.values.Length;
    }

    public void Reset()
    {
        position = -1;
    }
}

测试程序:

object[] values = { "a", "b", "c", "d", "e" };
MySet mySet = new MySet(values);
foreach (var item in mySet)
{
    Console.WriteLine(item);
}

这个例子也证明了foreach内部使用迭代器的MoveNext和Current完成遍历。

上面的例子中手写实现迭代器是十分麻烦的,在c#1.0中这是唯一的方式。在c#2.0中,我们可以使用yield语法糖简化迭代器。

public IEnumerator GetEnumerator()
{
    for (int i = 0; i < values.Length; i++)
    {
        yield return values[i];
    }
}

IEnumerable和IEnumerator虽然实现简单,只有简单的几个成员,但是却支撑起了C#语言中集合这座高楼大厦。

ICollection和ICollection

从第一张图中,我们可以得知ICollection继承于IEnumerable接口,并且扩展了IEnumerable接口。


1CiFbkmDg6.png

主要扩展的功能有:

  • 新增了属性Count,用于记录集合元素个数
  • 支持添加元素和移除元素
  • 支持是否包含某元素
  • 支持清空集合等等

对于任何实现了ICollection接口的集合,我们都可以通过第1条Count属性获取当前集合的元素数,所以这些集合也被称为计数集合。

IList 和IList

1CiFbkmDg6.png

IList接口直接继承于ICollection接口和IEnumerable接口,并且扩展了通过索引操作集合的功能。

主要扩展的功能有:

  • 通过索引获取集合中某个元素
  • 通过元素获取元素在集合中的索引值
  • 通过索引插入元素到集合指定位置
  • 移除集合指定索引处的元素

IDictionary<TKey, TValue>和IDictionary


1CiFbkmDg6.png

IDictionary接口直接继承于ICollection接口和IEnumerable接口,存储的元素是键值对,扩展了通过键操作键值对集合的功能。

主要扩展的功能有:

  • 通过键KEY获取值VALUE
  • 插入新的键值对{KEY:VALUE}
  • 是否包含KEY
  • 通过KEY移除键值对元素

主要的集合的接口介绍完了,下面我们来看一下具体的集合类型。

关联性泛型集合类

1.Dictionary<TKey,TValue>

Dictionary<TKey,TValue>的查询数据所花费的时间是所有集合类里面最快的,因为其内部使用了散列函数加双数组来实现,所以其查询数据操作的时间复杂度可以认为是O(1)。Dictionary<TKey,TValue>的实现是一种典型的牺牲空间换取时间(双数组)的做法。


1CiFbkmDg6.png

Dictionary<TKey,TValue>添加新元素的实现:


1CiFbkmDg6.png

1CiFbkmDg6.png

Dictionary<TKey,TValue>内部有两个数组,一个数组名为buckets,用于存放由多个同义词组成的静态链表头指针(链表的第一个元素在数组中的索引号,当它的值为-1时表示此哈希地址不存在元素);另一个数组为entries,它用于存放哈希表中的实际数据,同时这些数据通过next指针构成多个单链表。entries数组中所存放的是Entry结构体,Entry结构体由4个部分组成,如下所示:
1CiFbkmDg6.png

Dictionary<TKey,TValue>计算key的哈希值使用的是取余法,这种方式可能会产生冲突,所以需要进行冲突解决。Dictionary<TKey,TValue>解决冲突的方式是链接法。


1CiFbkmDg6.png

我们可以根据源码来模拟推导一下这个过程:

当添加第一个元素时,此时会分配哈希表buckets数组和entries数组的空间和初始大小,默认为3。对key=1进行哈希求值,假设第一个元素的哈希值=9,然后targetBucket = 9%buckets.Length(3)的值为0,所以第一个元素应该放在entries数组的第一位。最后对哈希表buckets数组赋值,数组索引为0,值为0。此时内部结构如图所示:


1CiFbkmDg6.png

然后插入第二个元素,对key=2进行哈希求值,假设第二个元素的哈希值=3,然后targetBucket = 3%buckets.Length (默认是3)的值为0,所以第二个元素应该放在entries数组的第一位。但是entries数组的第一位已经存在元素了,这就发生了冲突。Dictionary<TKey,TValue>解决冲突的方式是链接法,把发生冲突的元素链接之前元素的后面,通过next属性来指定冲突关系,最后更新哈希表buckets数组。此时内部结构如图所示:


1CiFbkmDg6.png

我们可以通过Dictionary<TKey,TValue>查找元素的实现来证明我们上面的分析是正确的。

Dictionary<TKey,TValue>查找元素的实现:


EB5B4ECAdI.png

EB5B4ECAdI.png

Dictionary<TKey,TValue>之所以能实现快速查找元素,其内部使用哈希表来存储元素对应的位置,我们可以通过哈希值快速地从哈希表中定位元素所在的位置索引,从而快速获取到key对应的Value值。物极必反,Dictionary<TKey,TValue>的缺点也很明显,就是里面的数据是无序排列的,所以按照一定顺序遍历查找数据效率是非常低的。

2.SortedDictionary<TKey,TValue>

SortedDictionary<TKey,TValue>和Dictionary<TKey,TValue>类似,至于区别我们从名称上就可以看出来,Dictionary<TKey,TValue>是无序的,SortedDictionary<TKey,TValue>则是有序的。key要保证唯一,而且还要有序排列,这让我们很自然的就想到了搜索二叉树。SortedDictionary<TKey,TValue>使用一种平衡搜索二叉树——红黑树,作为存储结构。因为基于二分查找,所以添加、查找、删除元素的时间复杂度是O(log n)。相对于下面提到的SortedList<TKey,TValue>来说,SortedDictionary<TKey,TValue>在添加和删除元素时更快一些。如果想要快速查询的同时又能很好的支持排序的话,并且添加和删除元素也比较频繁,可以使用SortedDictionary<TKey,TValue>。

SortedDictionary<TKey,TValue>添加新元素的实现:


EB5B4ECAdI.png

EB5B4ECAdI.png

3.SortedList<TKey,TValue>

在既需要快速查找又需要顺序排列的场景下,Dictionary<TKey,TValue>就无能为力了,因为Dictionary<TKey,TValue>使用了散列函数,并不支持线性排序。我们可以使用SortedList<TKey,TValue>集合类来应对这种场景。

SortedList<TKey,TValue>集合内部是使用数组实现的,添加和删除元素的时间复杂度是O(n),查找元素利用了二分查找,所以查找元素的时间复杂度是O(log n)。所以SortedList<TKey,TValue>虽然支持了有序排列,但是却是以牺牲查找效率为代价的。

SortedList<TKey,TValue>和SortedDictionary<TKey,TValue>同时支持快速查询和排序,SortedList<TKey,TValue> 优势在于使用的内存比 SortedDictionary<TKey,TValue> 少;但是SortedDictionary<TKey,TValue>可对未排序的数据执行更快的插入和移除操作:它的时间复杂度为 O(log n),而 SortedList<TKey,TValue> 为 O(n)。所以SortedList<TKey,TValue>适用于既需要快速查找又需要顺序排列但是添加和删除元素较少的场景。

内部实现结构:


EB5B4ECAdI.png

根据Key获取Value的实现:


EB5B4ECAdI.png

IndexOfKey实现:
EB5B4ECAdI.png

添加新元素:


EB5B4ECAdI.png

添加操作:
EB5B4ECAdI.png

非关联性泛型集合类

1.List

泛型的List 类提供了不限制长度的集合类型,List内部实现使用数据结构是数组。我们都知道数组是长度固定的,那么List不限制长度必定需要维护这个数组。实际上List维护了一定长度的数组(默认为4),当插入元素的个数超过4或初始长度时,会去重新创建一个新的数组,这个新数组的长度是初始长度的2倍,然后将原来的数组赋值到新的数组中。

我们可以通过ILSpy看一下List源码证明我们上面所说的:

List内部重要变量:


EB5B4ECAdI.png

EB5B4ECAdI.png

新增元素操作:


EB5B4ECAdI.png

新增元素确认数组容量:
EB5B4ECAdI.png

真正的数组扩容操作:
EB5B4ECAdI.png

数组扩容的场景涉及到对象的创建和赋值,是比较消耗性能的。所以如果能指定一个合适的初始长度,能避免频繁的对象创建和赋值。再者,因为内部的数据结构是数组,插入和删除操作需要移动元素位置,所以不适合频繁的进行插入和删除操作;但是可以通过数组下标查找元素。所以List适合读多写少的场景。

2.LinkedList

上面我们提到List适合读多写少的场景,那么必定有一个List适合写多读少的场景,就是这货了——LinkedList。至于为什么适合写多读少,熟悉数据结构的同学应该已经猜到了。因为LinkedList的内部实现使用的是链表结构,而且还是双向链表。直接看源码:


EB5B4ECAdI.png

因为内部实现结构是链表,所以可以在某一个节点前或节点后插入新的元素。

链表节点定义:


EB5B4ECAdI.png

我们以在某个节点前插入新元素为例:


EB5B4ECAdI.png

具体的插入操作,注意操作步骤不能颠倒:
EB5B4ECAdI.png

3.HashSet

HashSet是一个无序的能够保持唯一性的集合。我们可以将HashSet看作是简化的Dictionary<TKey,TValue>,只不过Dictionary<TKey,TValue>存储的键值对对象,而HashSet存储的是普通对象。其内部实现也和Dictionary<TKey,TValue>基本一致,也是散列函数加双数组实现的,区别是存储的Slot结构体不再有key。

内部实现数据结构:


EB5B4ECAdI.png

m_slots中所存放的是Slot结构体,Slot结构体由3个部分组成,如下所示:


EB5B4ECAdI.png

添加新元素的具体实现:

和Dictionary<TKey,TValue>添加新元素的实现基本一致。


EB5B4ECAdI.png

4.SortedSet

SortedSet和HashSet,就像SortedDictionary<TKey,TValue>和Dictionary<TKey,TValue>一样。SortedSet支持元素按顺序排列,内部实现也是红黑树,并且SortedSet对于红黑树的操作方法和SortedDictionary<TKey,TValue>完全相同。所以不再做过多的分析。

5.Stack

栈是一种后进先出的结构,C#的栈是借助数组实现的,考虑到栈后进先出的特性,使用数组来实现貌似是水到渠成的事。


EB5B4ECAdI.png

入栈操作:


EB5B4ECAdI.png

弹栈操作:
EB5B4ECAdI.png

6.Queue

队列是一种先进先出的结构,C#的队列也是借助数组实现的,有了前面的经验,借助数组实现必然会有数组扩容。C#的队列实现其实是循环队列的方式,可以简单的理解为将队列的头尾相接。至于为什么要这么做?为了节省存储空间和减少元素的移动。因为元素出队列时后面的元素跟着前移是非常消耗性能的,但是不跟着向前移动的话,前面就会一直存在空闲的空间浪费内存。所以使用循环队列来解决这种问题。


EB5B4ECAdI.png

入队操作:


EB5B4ECAdI.png
EB5B4ECAdI.png

出队操作:


EB5B4ECAdI.png

线程安全的集合类

需要我们注意的是,上面我们所介绍的集合并不是线程安全的,在多线程环境下,可能会出现线程安全问题。在多线程读的情况下,我们使用普通集合即可。在多线程添加/更新/删除时,我们可以采用手动锁定的方式确保线程安全,但是应该注意加锁的范围和粒度,加锁不当可能会导致程序性能低下甚至产生死锁。

更好的选择的是使用的C#提供的线程安全集合(命名空间:System.Collections.Concurrent)。线程安全集合使用几种算法来最小化线程阻塞。


EB5B4ECAdI.png

总结

写着写着突然发现跑到数据结构上来了。程序=数据结构+算法。上面提到的集合类型,我们需要在不同的场景进行合适的选择,其实本质上就是选择合适的数据结构。

参考:
https://www.cnblogs.com/jesse2013/p/CollectionsInCSharp.html
https://www.c-sharpcorner.com/article/concurrent-collections-in-net-concurrentdictionary-part-one/
http://www.cnblogs.com/jeffwongishandsome/archive/2012/09/09/2677293.html
http://www.cnblogs.com/edisonchou/p/4706253.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容

  • 一、数组数组是一组使用数字索引的对象,这些对象属于同一种类型。虽然C#为创建数组提供了直接的语言支持,但通用类型系...
    CarlDonitz阅读 664评论 0 1
  • 一、常用集合类型及概念 1.基本关系 许多泛型集合类型均为非泛型类型的直接模拟。 Dictionary< TKey...
    aslbutton阅读 1,427评论 0 49
  • C#集合 有两种主要的集合类型:泛型集合和非泛型集合。 泛型集合被添加在 .NET Framework 2.0 中...
    OctOcean阅读 832评论 0 3
  • 数据结构 数据结构是计算机存储、组织、管理数据的方式 数据结构是指相互之间存在一种或多种特定关系的数据元素的集合 ...
    JunChow520阅读 3,603评论 0 4
  • 9yue6 集合(Collection 一、集合的作用: 有两种方式可以将对象分组: 1、创建对象数组 2、创建对...
    cGunsNRoses阅读 2,216评论 0 0