C#12 集合表达式的幕后揭秘 1 - 介绍 C#12 中的集合表达式

经典集合初始化器

C# 3.0 起,我们就有了 “集合初始化器” 。它们采用 {} 模式来初始化任何实现了 Add() 方法的 IEnumerable 实现。例如,这会创建一个新的 List<string> 并用 5 个值初始化它:

var values = new List<string> { "1", "2", "3", "4", "5" };

幕后,编译器生成的代码看起来像这样:

List<string> values = new List<string>();
values.Add("1");
values.Add("2");
values.Add("3");
values.Add("4");
values.Add("5");

C# 中的数组初始化有其特别之处,你可以用比其他集合更多的方法来初始化它们,尽管看起来与标准集合初始化器相似:

var values1 = new[] { "1", "2", "3", "4" };
var values2 = new string[4] { "1", "2", "3", "4" };
string[] values3 = { "1", "2", "3", "4" };

这些工作方式与集合初始化器不同;这里没有调用 Add() 方法。相反,编译器生成的是如果你手动做这一切时同样的初始化代码:

string[] array = new string[4];
array[0] = "1";
array[1] = "2";
array[2] = "3";
array[3] = "4";

我们已经讨论了通用集合(如 List )和数组的集合初始化器,还有在 Span 世界中变得更为有用的 stackalloc 表达式,因为不需要使用 unsafe 代码:

Span<int> array = stackalloc []{ 1, 2, 3, 4 };

幕后,编译器将这个 stackalloc 初始化器转化为一些类似这样的 unsafe 代码:

unsafe {
    byte* num = stackalloc byte[16];
    *(int*)num = 1;
    *(int*)(num + 4) = 2;
    *(int*)(num + (nint)2 * (nint)4) = 3;
    *(int*)(num + (nint)3 * (nint)4) = 4;
    Span<int> array = new Span<int>(num, 4);
}

这段代码在栈上创建了一个数组,然后通过指针运算遍历每个元素,设置每个值。

使用集合表达式统一语法

我们已经看到至少有三种不同的场景下我们在初始化集合:

  • 数组
  • 类似 List 的集合
  • 使用 stackallocReadOnlySpan

每种情况都需要稍微不同的语法,例如:

int[] array = new[] { 1, 2, 3, 4 };
List<int> list = new() { 1, 2, 3, 4 };
HashSet<int> hashset = new() { 1, 2, 3, 4 };
ReadOnlySpan<int> span = stackalloc [] { 1, 2, 3, 4 };

这有点混乱和烦人。C#12 中引入的集合表达式提供了一种简化、统一的语法,适用于所有这些不同的集合类型。例如:

int[] array = [1, 2, 3, 4]
List<int> list = [1, 2, 3, 4];
HashSet<int> hashset = [1, 2, 3, 4];
ReadOnlySpan<int> span = [1, 2, 3, 4];

集合表达式在所有集合类型上的一致性是一个真正的优势,但这并不是唯一的优点。集合表达式相比集合初始化器可以提供性能优势(我们将在后续文章中探讨),以及额外的功能。

推断接口类型

想象一下,你想要创建一个集合,但你只关心它实现了 IEnumerable 。你需要自己决定使用哪个后端类型:

IEnumerable<int> list1 = new List<int> { 1, 2, 3, 4 };
IEnumerable<int> list2 = new HashSet<int> { 1, 2, 3, 4 };
IEnumerable<int> list3 = new int[] { 1, 2, 3, 4 };

那么应该选择哪一个呢?如果所有你需要做的就是枚举列表,那理论上选择哪种类型都不应该重要,对吧?那么正确的选项是什么?

使用集合表达式,你可以将此决策委托给编译器。你可以不指定后端类型,而由编译器来决定。而且,集合表达式的额外优点是更加简洁:

IEnumerable<int> ienumerable = [1, 2, 3, 4];
IList<int> ilist = [1, 2, 3, 4];
IReadOnlyCollection<int> icollection = [1, 2, 3, 4];

幕后,编译器完全透明地创建了一个实现所需接口的集合,所以你无需考虑这一点。

值得注意的是,虽然编译器会自动为接口集合选择一个具体的类型,但你需要指定某种类型。例如,你不能使用 var

var values = [1, 2, 3, 4]; // ❌ 编译错误,CS9176:集合表达式没有目标类型
Sum(values);
Sum([1, 2, 3, 4]); // ✅ 这是可行的
int Sum(IEnumerable<int> v) => v.Sum();

问题在于,根据 C#编译器的工作方式,它无法推断 values 的类型应为 IEnumerable<int> ,因此抛出了错误。未来版本的 C#可能会改变这种情况,但可能的解决方案是始终选择 int[] ,这并不一定是最优的,所以不要抱太大希望。

针对 ReadOnlySpan 的高效自动 stackalloc

对于 ReadOnlySpanSpan 实例来说,如果你只使用集合初始化器,情况也类似。如果你只需要在 SpanReadOnlySpan 中存储一些数据,那么使用集合初始化器就需要决定将数据放在哪里,然后再从中获取 Span

Span<int> spans2 = stackalloc[] { 1, 2, 3, 4 }; // 栈上分配数组
Span<int> spans3 = new[] { 1, 2, 3, 4 }; // 在堆上分配
Span<string> spans4 = new[] { "1", "2", "3", "4" }; // 不能直接使用 stackalloc 分配字符串数组

虽然这不是一个很大的决策,通常只有两个合理的选择,但还是需要额外考虑的事情。此外,你不能直接使用 stackallocstring[] 分配内存,除非通过一些 InlineArray 的技巧 。

使用集合表达式,你可以再次将此决策委托给编译器,它会做出正确的处理。

ReadOnlySpan<int> readonlyspans = [1, 2, 3, 4];
Span<string> spans = ["1", "2", "3", "4"];

在系列的后续部分,你会发现这些特定的集合表达式案例被高度优化

集合表达式使重构更简单

到目前为止,我展示的所有例子都是将集合表达式赋值给变量,但实际上你也可以直接将集合表达式作为方法参数使用,比如:

using System.Linq;
using System.Collections.Generic;

// 创建一个接受IEnumerable<int>的方法
int Sum(IEnumerable<int> values) => values.Sum();

// 使用集合表达式调用方法
Sum([1, 2, 3, 4]);

这种模式的一个好处是,如果我改变了 Sum() 的签名,我不需要改变调用站点。相比之下,如果你使用集合初始化器:

// 如果方法接受数组...
int Sum1(int[] values) => values.Sum();
Sum1(new [] { 1, 2, 3, 4 }); // 必须使用数组语法

// 如果方法接受IEnumerable...
int Sum2(IEnumerable<int> values) => values.Sum();
Sum2(new List<int> { 1, 2, 3, 4 }); // 必须使用显式类型,如List或类似

// 如果方法接受ReadOnlySpan...
int Sum3(ReadOnlySpan<int> values) {
    var total = 0;
    foreach (var value in values) {
        total += value;
    }
    return total;
}
Sum3(new []{ 1, 2, 3, 4 }); // 必须选择标准数组或者使用stackalloc分配的数组

如果使用集合表达式,那么我们可以使用完全相同的语法来调用所有三个 Sum() 实现:

Sum1([ 1, 2, 3, 4 ]); Sum2([ 1, 2, 3, 4 ]); Sum3([ 1, 2, 3, 4 ]);

并且,编译器会使用最有效的实现方式来创建所需类型的集合。

这看起来可能是一件小事,而且在某种程度上确实是这样,但正是所有这些小小的便利特性使得集合表达式成为一个非常整洁的功能!整体而言,正是这些微小的方便性让集合表达式的使用变得极为顺手和高效。

空集合

C# 中,集合表达式的一个特性是编译器明确识别空集合的语法。这意味着你不再需要写像下面这样的代码:

var empty = new int[]{}; // 通常你不应该这样做...
var empty = Array.Empty<int>(); // ...相反,更倾向于使用这行代码!

现在,你可以使用 [] 来生成一个适当的空集合版本,例如:

int[] empty = [];

集合表达式相比于显式初始化有两大主要优势:

  • 编译器可以选择创建空集合的最有效方式,比如选择 Array.Empty()(或其等价方法)。
  • 对于所有集合类型,你可以使用一致的语法。

以下示例展示了多种集合类型,以及如何使用 [] 来创建它们的空版本。每行代码后的注释显示了编译器为特定类型生成的代码:

int[] array = []; // Array.Empty()
HashSet<int> hashset = []; // new HashSet<int>()
List<int> list = []; // new List<int>()
IEnumerable<int> ienumerable = []; // Array.Empty()
ICollection<int> icollection = []; // new List<int>()
IList<int> ilist = []; // new List<int>()
IReadOnlyCollection<int> readonlycollection = []; // Array.Empty()
IReadOnlyList<int> readonlyList = []; // Array.Empty()
Span<int> span = []; // default(Span<int>)
ReadOnlySpan<int> readonlyspan = []; // default(ReadOnlySpan<int>)
ImmutableArray<int> immutablearray = []; // ImmutableArray.CreateRange(Array.Empty())
ImmutableList<int> immutablelist = []; // ImmutableList.Create(default(ReadOnlySpan<int>));

如你所见,编译器尽可能地高效;如果类型是可变的,如 HashSetList,那么它只能创建一个新的实例;但如果可以使用不分配内存的版本,如 Array.Empty(),那么它就会采用这种方式!请注意,在最后一个示例中,ImmutableArrayImmutableList 使用了不同的构造函数来创建空集合,因为它们是不可变集合。

使用展开运算符(spread element)从其他集合构建集合

我们已经了解了集合表达式的两个好处:

  • 一致的语法
  • 高效的编译器生成实现

集合表达式的另一个重要特性是 展开运算符 (..)。这使你能够更容易地从其他集合实例构建新的集合。

举个具体的例子,假设你有两个 IEnumerable 集合,并且你想将它们作为数组连接起来。使用 LINQ,这是相当容易做到的,因为它提供了专门用于此类操作的扩展方法:

int[] ConcatAsArray(IEnumerable<int> first, IEnumerable<int> second)
{
    return first.Concat(second).ToArray();
}

很好,但是如果现在你需要处理的是 ReadOnlySpan 而不是 IEnumerable 呢?不幸的是,正如我们之前讨论的那样,ReadOnlySpan 不实现 IEnumerable 接口,所以我们可能需要这样做:

int[] ConcatAsArray(ReadOnlySpan<int> first, ReadOnlySpan<int> second)
{
    var list = new List<int>(first.Length + second.Length);
    list.AddRange(first);
    list.AddRange(second);
    return list.ToArray();
}

这虽然不是 糟糕,但仍然让人感到恼火,因为对于每种不同的集合类型都得考虑这些细节。而使用集合表达式和展开运算符,我们得到了一个简洁的快捷方式,它可以用于所有受支持的集合类型。上述两种重载都可以用同样的方式实现:

int[] ConcatAsArray(IEnumerable<int> first, IEnumerable<int> second) => [..first, ..second];
int[] ConcatAsArray(ReadOnlySpan<int> first, ReadOnlySpan<int> second) => [..first, ..second];

而且,由于集合表达式的一致性,如果你更改 ConcatAsArray() 方法的参数 或者 返回类型,你完全不需要修改集合表达式本身,它依旧可以正常工作!

.. 运算符意味着 “写出集合中的所有值” ,因此再举一个例子:

int[] array = [1, 2, 3, 4];
IEnumerable<int> oddValues = array.Where(int.IsOddInteger); // 1, 3
int[] evenValues = [..array.Where(int.IsEvenInteger)];      // 2, 4
int[] allValues = [..oddValues, ..evenValues];             // 1, 3, 2, 4

上述代码多次使用了展开运算符,但在每种情况下,它都意味着 “写出集合的所有元素” 。所以在最后一步中,allValues 包含了 oddValues 中的所有元素,后面跟着 evenValues 中的所有值。

你也可以在集合表达式中混合单一值和展开集合,例如:

int[] arr = [1, 2, 3, 4];
int[] myValues = [0, ..arr, 5, 6]; // 0, 1, 2, 3, 4, 5, 6

最终结果就像是遍历了 arr 并添加了每个值一样。

注意,展开运算符 ..范围运算符(如 1..32..^ 中的 ..)是 不同 的,后者用于对数组进行 索引。然而,你可以结合使用它们,先用 范围 来选择元素子集,然后将它们 展开 到集合表达式中:

int[] primes = [1, 2, 3, 5, 7, 9, 11];
int[] some = [0, ..primes[1..^1]]; // 0, 2, 3, 5, 7, 9

这段代码使用 1..^1 范围运算符取 primes 数组的第1个至N-1个元素(即 2, 3, 5, 7, 9),然后在集合表达式中使用展开 ..

集合表达式为创建集合添加了一种很好的对称性(在重构从一种集合类型到另一种时特别有用),并且通过展开运算符使集合的组合变得更加简单。但集合表达式不仅仅是关于语法。重要的是,集合表达式为编译器提供了优化其生成代码的选项。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,417评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,921评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,850评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,945评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,069评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,188评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,239评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,994评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,409评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,735评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,898评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,578评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,205评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,916评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,156评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,722评论 2 363
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,781评论 2 351

推荐阅读更多精彩内容