RDD特征

文档:http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds

全称:Resilient Distributed Datasets

which is a fault-tolerant collection of elements that can be operated on in parallel

一种编程模型的抽象,是一种具有容错性基于内存的集群计算抽象方法。

每个RDD具有5个特征:

    1 分区(partition):有一个数据分片列表,能够将数据进行切分,切分后的数据能够进行并行计算,是数据集的原子组成部分。

    2 函数(compute): 计算每个分片,返回一个可遍历的结果,用于说明在父RDD上执行何种计算。

    3 依赖(dependency): 计算每个RDD对父RDD的依赖列表,源RDD没有依赖,通过依赖关系描述血统(lineage)。

    4 优先位置(可选):每个分片的优先计算位置

    5 分区策略(可选)描述分区模式和数据存储位置

每个Transformation操作都会产生一种RDD:


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容