Spark核心数据模型-RDD

1:可以抽象地理解为一个大数组(Array)。这个数组是分布在集群上的,逻辑上RDD的每个分区是一个Partiton

2: 4种创建方式;2种操作算子

3:cache()函数缓存中间数据

4:本质上,meta-data,存储block、node等的映射关系

5:从hdfs等外部文件创建RDD时,可使用hdfs分区策略,也可重分区

    5.1 hash分区:数据项key值取hash值,hash值相同的元素同一分区

    5.2 range分区:将属于同一数据范围的元素放入同一分区

6. 主要算子及功能 (输入、转换、输出)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容