登录注册写文章

RDD Partition/Partitioner

RDD Partition/Partitioner

RDD是由若干个partition构成的，一份待处理的原始数据会被按照相应的逻辑切分成n份，每份数据对应到RDD中的一个Partition，Partition的数量决定了task的数量，影响着程序的并行度，所以理解Partition是了解spark背后运行原理的第一步。

RDD的生成方式共有三种：

从Scala集合中创建，通过调用sc.makeRDD()和sc.parallelize()生成
加载外部数据来创建RDD，调用sc.textFile()方法
由其他RDD执行transform操作转换而来

一般来说，加载Scala集合或者外部数据创建RDD的时候可以指定partition个数

决定RDD的每一条消息应该分到哪一个分区的就是Partitioner，只有<key,value>形式的RDD才有Partitioner

Partitioner主要有两种，分别是Hash Partititoner(默认)和Range Partititoner.

使用Partitioner必须满足两个前提：1.rdd必须是<key,value>形式 2.发生shuffle操作

data skew(数据倾斜)：由于hash计算出的key值对应的数据量大小不同导致的，解决办法是通过自定义partitioner来解决

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

pySpark 中文API (1)
http://spark.apache.org/docs/latest/api/python/index.html...
mpro阅读 11,289评论 0赞 4
Spark 基础学习第一讲：弹性分布式数据集RDD
引子任何一个概念的引入都是为了解决某种问题，RDD亦然。关于RDD这个概念，先抛几个问题。为什么引入RDD这个...
陆云子安阅读 5,985评论 1赞 7

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
草里有只羊阅读 18,433评论 0赞 85
3.2 弹性分布式数据集
3.2 弹性分布式数据集本节简单介绍RDD，并介绍RDD与分布式共享内存的异同。 3.2.1 RDD简介在集群...
Albert陈凯阅读 5,458评论 0赞 0
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
草里有只羊阅读 8,498评论 0赞 15

赞1赞

赞赏

手机看全文