RDD

RDD 弹性式分布数据集 可以理解为Spark的一个对象
RDD五大特性
1.由一系列的Partition组成,如果计算数据在HDFS上,则partition个数于block个数一致
2.函数作用在每一个partition中
3.每一个RDD由一系列依赖关系,保证容错性
4.Spark中RDD作用在K-V格式RDD上
K-V格式RDD:RDD中存储的元素是二元数组
5.每个RDD提供了最佳位置以供计算

partition(分区器)决定处理后的结果存放到那个磁盘小文件中

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容