第四十六条:优先选择Stream中无副作用的函数

如果刚接触Stream,可能比较难以掌握其中的窍门。就算只是用Stream pipeline来表达计算就困难重重。当你好不容易成功了,运行程序之后,却可能感到这么做并没有享受到多大溢出。Strema并不只是API,它是一种基于函数编程的模型。为了获得Stream带来的描述性和速度,有时还有并行性,必须采用范式以及API。

Stream范式最重要的部分是把计算构造成一系列变型,每一级结果都尽可能靠近上一级结果的纯函数(pure function)。纯函数是指其结果只取决于输入的函数:它不依赖任何可变的状态,也不更新任何状态。为了做到这一点,传入Stream操作的任何函数对象,无论是中间操作还是终止操作,都应该是无副作用的。

有时你会看到如下代码,它构建一张表格,显示这些单词在一个文本文件中出现的频率:

// Uses the streams API but not the paradigm--Don't do this!
Map<String, Long> freq = new HashMap<>();
try (Stream<String> words = new Scanner(file).tokens()) {
  words.forEach(word -> { freq.merge(word.toLowerCase(), 1L, Long::sum); }); 
}

以上代码有什么问题吗?他毕竟使用了Stream、Lambda和方法引用,并且得出了正确的答案。简而言之,这根本不是Stream代码;只不过是伪装成Strema代码的迭代式代码。它并没有享受到Stream API 带来的优势,代码反而更加长了点,可读取也差了点,并且比相应的迭代代码更难维护。因为这段代码利用一个改变外部状态(频率表)的Lambda,完成了在终止操作的forEach中的所有工作。forEach操作的任务不只展示由Stream执行的计算结果,这在代码中并非好事,改变状态的Lambda也是如此。那么这段代码应该是什么样的呢?

// Proper use of streams to initialize a frequency table
Map<String, Long> freq;
try (Stream<String> words = new Scanner(file).tokens()) {
   freq = words.collect(groupingBy(String::toLowerCase, counting()));
}

这段代码的作用与前一个例子一样,只是正确使用了Stream API,变得更加简短、清晰。那么为什么有人会以其他的方式编写呢?这是为了使用它们已经熟悉的工具。Java程序员都知道如果用for-each循环,终止操作的forEach也与之类似。但forEach操作是终止操作中最没有威力的,也是对Stream最不友好的。它是显式迭代,因而不适合并行。forEach操作应该只用于报告Stream计算的结果,而不是执行计算。有时候,也可以将forEach用于其他目的,比如将Stream计算的结果添加到之前已经存在的集合中去。

改进过的代码使用了一个收集器(collector),为了使用Stream,这是必须了解的一个新概念。Collectors API很吓人:它有39种方法,其中有些方法还带有5个类型参数!好消息是,你不必完全搞懂这个API就能享受它带来的好处。对于初学者,可以忽略Collector接口,并把收集器当作封装缩减策略的一个黑盒子对象。在这里,缩减的意思是将Stream的元素合并到单个对象中去。收集器产生的对象一般是一个集合(即名称收集器)。

将Stream的元素集中到一个真正的Collection里去的收集器比较简单。有三个这样的收集器:toList()、toSet()和toCollection(collectionFactory)。它们分别返回一个列表、一个集合和程序员指定的集合类型。了解了这些,就可以编写Stream pipeline,从频率表中提取排名前十的单词列表了:

// Pipeline to get a top-ten list of words from a frequency table
List<String> topTen = freq.keySet().stream()
                       .sorted(comparing(freq::get)
                       .reversed()) 
                       .limit(10)
                       .collect(toList());

注意,这里没有给toList方法配上它的Collectors类。静态导入Collectors的所有成员惯例也是明智的,因为这样可以提升Stream pipeline的可读性

这段代码中唯一有技巧的部分是传给sorted的比较器comparing(freq::get).reversed()。comparing方法是一个比较器构造器方法(详见第14条),它带有一个键提取函数。函数读取一个单词,”提取“实际上是一个表查询:有限制的方法引用freq::get在频率表中查找单词,并返回该单词在文件中出现的次数。最后,在比较器上调用reversed,按频率高低对单词进行排序。后面的事情就简单了,只要限制Stream为10个单词,并将它们集中到一个列表中即可。

上一段代码是利用Scanner的Stream方法来获得Stream。这个方法是在Java9中增加的。如果使用的是更早的版本,可以把实现Iterator的扫描器,翻译成使用了类似于第47条中适配器的Stream(streamOf(Iterable<E>))。

Collectors中的另外36种方法又是什么样的呢?它们大多数是为了便于将Stream集合到映射中,这远比集中到真实的集合中要复杂得多。每个Stream元素都有一个关联的键和值,多个Stream元素可以关联同一个键。

最简单的映射收集器是toMap(keyMapper,valueMapper),它带有两个函数,其中一个是将Stream元素映射到键,另一个是将它映射到值。我们采用第34条fromString实现中的收集器,将枚举的字符串形式映射到枚举本身:

// Using a toMap collector to make a map from string to enum
private static final Map<String, Operation> stringToEnum = Stream.of(values()).collect( toMap(Object::toString, e -> e));

如果Stream中的每个元素都映射到一个唯一的键,那么这个形式简单的toMap是很完美的。如果多个Stream元素映射到同一个键,pipeline就会抛出一个IllegalStateException异常将它终止。

toMap更复杂的形式,以及groupingBy方法,提供了更多处理这类冲突的策略。其中一种方式是除了给toMap方法提供键和值映射器之外,还提供一个合并函数(merge function)。合并函数是一个BinarOperator<V>,这里的V是映射的值类型。合并函数将与键关联的任何其他值与现有值合并起来,因此,假如合并函数是乘法,得到的值就是与该值映射的键关联的所有值的积

带有三个参数的toMap形式,对于完成从键到与键关联的被选元素的映射也是非常有用的。假设有一个Strean,代表不同歌唱家的唱片,我们想得到一个从歌唱家得到最畅销唱片之间的映射。下面这个收集器可以完成这项任务。

Map<Artist, Album> topHits = albums.collect(toMap(Album::artist, a->a, maxBy(comparing(Album::sales))));

注意,这个比较器使用了静态工厂方法maxBy,这是从BinaryOperator静态导入的。该方法将Comparator<T>转换成一个BinaryOperator<T>,用于计算指定比较器产生的最大值。在这个例子中,比较器是由比较器构造器方法comparing返回的,它有一个键提取函数Album::sales。看起来优点绕,但是代码的可读性良好。不严格的说,它的意思是”将唱片的Stream转换成一个映射,将每个歌唱家映射到销量最佳的唱片“。这就非常接近问题陈述了。

带有三个参数的toMap形式还有另一种用途,即生成一个收集器,当有冲突时强制”保留最后更新“,对于许多Stream而言,结果是不确定的,但如果与映射函数的键关联的所有值都相同,或者都是可接受的,那么下面这个收集器的行为就正是你所要的:

// Collector to impose last-write-wins policy
toMap(keyMapper, valueMapper, (v1, v2) -> v2)

toMap的第三个也就是最后一种形式是,带有第四个参数,这是一个映射工厂,在使用时要指定特殊的映射实现,如EnumMap或者TreeMap。

toMap的前三种版本还有另外的变换形式,命名为toConcurrentMap,能够有效的并行运行,并生成ConcurrentHashMap实例。

除了toMap方法,Collectors API还提供了groupingBy方法,它返回收集器以生成映射,根据分类函数将元素分门别类。分类函数带有一个元素,并返回其所属的类别。这个类别就是元素的映射键。groupingBy方法最简单的版本是只有一个分类器,并返回一个映射,映射值为每个类别中所有元素的列表。下列代码就是在第45条的Anagram程序中用于生成映射(从按字母排序的单词,映射到字母排序相同的单词列表)的收集器:

words.collect(groupingBy(word -> alphabetize(word)))

如果要让groupingBy返回一个收集器,用它生成一个值而不是列表的映射,除了分类器之外,还可以指定一个下游收集器。下游收集器从包含某个类别中所有元素的Stream中生成一个值。这个参数最简单的用法是传入toSet(),结果生成一个映射,这个映射值为元素集合而非列表。

另一种方法是传入toCollection(collectionFactory),运行创建存放各元素类别的集合。这样就可以自由选择自己想要的任何集合类型了。带两个参数的groupingBy版本的另一种简单用法是,传入counting()作为下游收集器。这样会生成一个映射,它将每个类别与该类别中的元素数量关联起来,而不是包含元素的集合。这正是在本条目开头处频率表范例中见到的:

Map<String, Long> freq = words.collect(groupingBy(String::toLowerCase, counting()));

groupingBy的第三个版本,除了下游收集器之外,还可以指定一个映射工厂。注意,这个方法违背了标准的可伸缩参数列表模式:参数mapFactory要在downStream参数之前,而不是在它之后。groupingBy的这个版本可以控制所包围的映射,以及所包围的集合,因此,比如可以定义一个收集器,让它返回值为TreeSets的TreeMap。

groupingByConcurrent方法提供了groupingBy所有三重载的变体。这些变体可以有效的并发运行,生成ConcurrentHashMap实例。还有一种比较少用的groupingBy变体叫做partitioningBy。除了分类方法之外,它还带有一个断言(predicate),并返回一个键为Boolean的映射。这个方法有两个重载,其中一个除了带有断言之外,还带有下游收集器。

counting方法返回的收集器仅用于下游收集器。通过载Stream上的count方法,直接就有相同的功能,因此压根没有理由使用collect(counting())。这个属性还有15种Collectors方法。其中包含9种方法其名称以summing、averaging和summarizing开头(相应的Stream基本类型上就有相同的功能)。它们还包括reducing、filtreing、mapping、flatMapping和collectingAndThe方法。大多数程序员都能安全的避开这里的大多数方法。从设计的角度来看,这些收集器试图部分复制收集器中Stream的功能,以便下游收集器可以成为"迷你流"。

目前已经提到了3个Collectors方法。虽然它们都在Collectors中,但是并不包含集合。前两个是minBy和maxBy,它们有一个比较器,并返回由比较器确定的Stream中的最少元素或者最多元素。它们是Stream接口中min和max方法的粗略概括,也是BinaryOperator中同名方法返回的二进制操作符。与收集器相类型。回顾以下在最畅销唱片范例中用过的BinaryOperator.maxBy方法。

最后一个Collectors方法是joining,它只在CharSequence实例的Stream中操作,例如字符串。它以参数的形式返回一个简单的合并元素的收集器。其中一种参数形式带有一个名为分界符的CharSequence参数,它返回一个连接Stream元素并在相邻元素之间插入分隔符的收集器。如果传入一个逗号作为分隔符,收集器就会返回一个用逗号隔开的值字符串(但要注意,如果Stream中的任何元素中包含逗号,这个字符串就会引起歧义)。这三种参数形式,除了分隔符之外,还有一个前缀和一个后缀。最终的收集器生成的字符串,会像在打印集合时所得到的那样,如[came,saw,conquered]。

总而言之,编写Stream pipeline本质上是无副作用的函数对象。这适用于传入Stream及相关对象的所有函数对象。终止操作中的forEach应该只用来报告由Stream执行的计算结果,而不是让它执行计算。为了正确的使用Stream,必须了解收集器。最重要的收集器工厂是toList、toSet、toMap、groupingBy和joining。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容