RDD 弹性式分布数据集 可以理解为Spark的一个对象
RDD五大特性
1.由一系列的Partition组成,如果计算数据在HDFS上,则partition个数于block个数一致
2.函数作用在每一个partition中
3.每一个RDD由一系列依赖关系,保证容错性
4.Spark中RDD作用在K-V格式RDD上
K-V格式RDD:RDD中存储的元素是二元数组
5.每个RDD提供了最佳位置以供计算
partition(分区器)决定处理后的结果存放到那个磁盘小文件中
RDD 弹性式分布数据集 可以理解为Spark的一个对象
RDD五大特性
1.由一系列的Partition组成,如果计算数据在HDFS上,则partition个数于block个数一致
2.函数作用在每一个partition中
3.每一个RDD由一系列依赖关系,保证容错性
4.Spark中RDD作用在K-V格式RDD上
K-V格式RDD:RDD中存储的元素是二元数组
5.每个RDD提供了最佳位置以供计算
partition(分区器)决定处理后的结果存放到那个磁盘小文件中