Spark核心数据模型-RDD

1：可以抽象地理解为一个大数组（Array）。这个数组是分布在集群上的，逻辑上RDD的每个分区是一个Partiton

2： 4种创建方式；2种操作算子

3：cache()函数缓存中间数据

4：本质上，meta-data，存储block、node等的映射关系

5：从hdfs等外部文件创建RDD时，可使用hdfs分区策略，也可重分区

5.1 hash分区：数据项key值取hash值，hash值相同的元素同一分区

5.2 range分区：将属于同一数据范围的元素放入同一分区

6. 主要算子及功能（输入、转换、输出）

最后编辑于：2018.02.26 18:03:58

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

3.2 弹性分布式数据集
3.2 弹性分布式数据集本节简单介绍RDD，并介绍RDD与分布式共享内存的异同。 3.2.1 RDD简介在集群...
Albert陈凯阅读 1,578评论 0赞 0
RDD:基于内存集群计算的容错抽象
该论文来自Berkeley实验室，英文标题为：Resilient Distributed Datasets: A ...
九七学姐阅读 1,871评论 0赞 3
Spark计算模型与I/O机制
Part 1 1. Spark计算模型 1.1 Spark程序模型首先通过一个简单的实例了解Spark的程序模型...
ZyZhu阅读 2,358评论 0赞 1
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient D...
Spark RDD（Resilient Distributed Datasets）论文概要 1: 介绍 2: R...
Joyyx阅读 1,894评论 0赞 5
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient D...
Spark RDD（Resilient Distributed Datasets）论文概要 1: 介绍 2: R...
草里有只羊阅读 1,373评论 2赞 7

赞1赞

赞赏

手机看全文