黑猴子的家：Spark 数值 RDD 的统计操作

Spark 对包含数值数据的 RDD 提供了一些描述性的统计操作。 Spark 的数值操作是通过流式算法实现的，允许以每次一个元素的方式构建出模型。这些统计数据都会在调用 stats() 时通过一次遍历数据计算出来，并以 StatsCounter 对象返回

scala> val rdd = sc.makeRDD(1 to 100)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at makeRDD at <console>:24

scala> rdd.sum
res0: Double = 5050.0

scala> rdd.max
res1: Int = 100

scala> rdd.min
res2: Int = 1

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

《spark快速大数据分析》学习笔记
学习笔记时间：2017年2月7日使用工具：1. 在办公电脑上安装的Ubuntu虚拟机编程语言：scala v...
485b1aca799e阅读 11,069评论 0赞 15
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient D...
Spark RDD（Resilient Distributed Datasets）论文概要 1: 介绍 2: R...
Joyyx阅读 5,836评论 0赞 5

Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient D...
Spark RDD（Resilient Distributed Datasets）论文概要 1: 介绍 2: R...
草里有只羊阅读 5,138评论 2赞 7
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 ...
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingConte...
Joyyx阅读 10,826评论 0赞 26
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
草里有只羊阅读 18,445评论 0赞 85

赞1赞

手机看全文