登录注册写文章

Spark-RDD持久化

Spark-RDD持久化

(1) persist算子

使用方法：

var rdd = sc.textFile("test")
rdd = rdd.persist(StorageLevel.MEMORY_ONLY)
val count = rdd.count() //或者其他操作

StorageLevel说明：

StorageLevel的构造函数：

class StorageLevel private(
    private var _useDisk: Boolean, # 是否存入磁盘
    private var _useMemory: Boolean, # 是否存入内存
    private var _useOffHeap: Boolean, # 是否使用堆外内存
    private var _deserialized: Boolean, # 是否不进行序列化
    private var _replication: Int = 1 # 副本数（默认为1）)

StorageLevel object中已经定义了几种代表RDD持久化的级别：

使用不同参数的组合构造的实例被预先定义为一些值，比如MEMORY_ONLY代表着不存入磁盘，存入内存，不使用堆外内存，不进行序列化，副本数为1，使用persisit()方法时把这些持久化的级别作为参数传入即可。

(2) cache算子

cache() = persist(StorageLevel.MEMORY_ONLY)

(3) checkpoint算子：可以把RDD持久化到HDFS

使用方法：

使用方法：
sc.setCheckpointDir("hdfs://...")
var rdd = sc.textFile("test")
rdd.checkpoint()
val count = rdd.count() //或者其他操作

checkpoint()执行原理：

当RDD的job执行完毕后，会从finalRDD从后往前回溯
当回溯到调用了checkpoint()方法的RDD后，会给这个RDD做一个标记
Spark框架自动启动一个新的job，计算这个RDD的数据，然后把数据持久化到HDFS上
优化：对某个RDD执行checkpoint()之前，对该RDD执行cache()，这样的话，新启动的job只需要把内存中的数据上传到HDFS中即可，不需要重新计算。

(4) 关于这3个算子的几点说明

这3个算子都是Transformations类算子，需要Actions类算子触发才能执行
cache 和 persist 算子的返回执行必须赋值给一个变量，在接下来的job中直接使用这个变量，那么就是使用了持久化的数据了，如果application中只有一个job，没有必要使用RDD持久化
cache 和 persist 算子后不能立即紧跟action类算子，比如count算子，但是在下一行可以有action类算子

error : 
    cache().count()  
right : 
    rdd = rdd.cache()   
    rdd.count()

checkpoint()算子执行后就切断了RDD之间的依赖
当业务逻辑很复杂时，RDD之间频繁转换，RDD的血统很长，如果中间某个RDD的数据丢失，还需要重新从头计算，如果对中间某个RDD调用了checkpoint()方法，把这个RDD上传到HDFS，同时让后面的RDD不再依赖于这个RDD，而是依赖于HDFS上的数据，那么下次计算会方便很多。
checkpoint持久化到磁盘和persist持久化到磁盘的区别

persist()把RDD持久化到磁盘，这个RDD的持久化数据保存在Worker的工作目录下，且当整个application执行结束后，就会自动删除持久化的数据
checkpoint()持久化到指定的目录，可以是HDFS，而且永久保存

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Spark系列课程-00xxSpark RDD持久化
我们这节课讲一下RDD的持久化这段代码我们上午已经看过了，有瑕疵大家看出来了吗？有什么瑕疵啊?大家是否还记得我在...
Albert陈凯阅读 3,897评论 0赞 2
3.2 弹性分布式数据集
3.2 弹性分布式数据集本节简单介绍RDD，并介绍RDD与分布式共享内存的异同。 3.2.1 RDD简介在集群...
Albert陈凯阅读 5,499评论 0赞 0

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 ...
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingConte...
草里有只羊阅读 9,664评论 0赞 11
Spark盖中盖（一篇顶五篇）-2 RDD算子详解
前方高能减速慢行！在上一篇RDD结构已经介绍完了。虽然RDD结构是spark设计思想最重要的组成，但是没有辅助的...
HxLiang阅读 8,696评论 0赞 11
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 ...
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingConte...
Joyyx阅读 10,833评论 0赞 26

友情链接更多精彩内容

赞1赞

赞赏

手机看全文