Spark学习笔记三《图解Spark核心技术与案例实战》阅读之RDD


之前的集群容错处理模型比如MapReduce,Dryad等,都是将计算转换为一个DAG,是的模型能有效的恢复DAG中的故障和慢节点执行的任务,但是没有提供除了文件系统之外的其他存储方式,导致在网络上要频繁的数据复制,造成IO压力。
RDD提供一种粗粒度的变换如(map,filter,join等)接口,这些接口将相同的操作应用到多个数据集上,这样便使得它们可以记录创建数据集的血统 Lineage,而不需要存储真正的数据,从而达到高容错性。

Spark之RDD类型

Spark开发者首先需要编写一个Driver程序来连接到各个Worker节点,Driver定义一个或多个RDD以及相关的行动操作,driver同时记录RDD的继承关系即血统,而worker是一直运行的进程,它将经过一系列操作后的RDD分区数据保存在内存中。
Spark中的操作大致分为4类,(Spark其实只划分了2类,但是这本书的作者认为存在4类)。
前两种是官方文档定义的两类操作:

  • 转换 transformations,将RDD通过一定的变化操作变换为新的RDD(转换操作是惰性操作 lazy,并不立即执行计算,在我的上一篇笔记有介绍到)。
  • 行动操作 actions,能够触发Spark运行的操作,如reduce,collect等。Spark中行动操作分为两类,一类的操作结果变成Scala集合或者变量,另一类将RDD保存在外部文件系统或数据库中。
  • 创建操作 ,即创建RDD,分为外部创建和内部创建,上篇笔记有介绍不赘述。
  • 控制操作 ,对RDD持久化的操作,让RDD按不同的存储策略保存在磁盘或者内存。(在官方文档有介绍,又一个storage level,不同的存储层级对应不同的存储方案)。

Spark之RDD实现

作业调度
当对RDD进行转换操作时,调度器根据RDD血统来构建调度阶段stage,划分的依据是RDD之间的宽依赖窄依赖,同一个stage中只存在窄依赖,遇到宽依赖则要切割成前后两个stage。

Spark的Scala解析器

也就是spark的shell
Scala的shell解析器处理过程一般为:

  1. 将用户的每一行变异为一个类
  2. 将该类载入到JVM中去
    例如用户在第一行输入以下:
var x =5

shell将会定义一个叫做Line1的类,该类包含x。

  1. 调用该类的某个函数,在该类中包含一个单例对象,对象中包含当前行的变量或函数,在初始化方法中包含处理该行的代码。
    例如用户在第二行输入以下:
println(x)

该行被编译为println(Lineq.getInstance().x)

RDD内存管理

Spark的三种RDD持久化策略

  • 未序列化的Java对象直接存在JVM虚拟机内存中(性能最优)
  • 序列化的数据存于内存(组织方式更良好,牺牲一定的性能)
  • 序列化的数据存于磁盘(适用于RDD太大的情况)

Spark对内存使用LRU的回收算法。

CheckPoint

血统提供了很方便的RDD错误恢复机制,但是当血统链太长的时候,恢复耗时长。通常情况下,会对包含宽依赖的长血统设置checkpoint

RDD的转换操作 transformations

基础操作

  • map
  • distinct
  • flatMap

重新分区

  • coalesce

  • repartition

  • randomSplit(weights:Array[Double],seed:Long=Utils.random.nextLong):Array[RDD[T]] 根据权重将RDD分隔为多个RDD,权重大的被分配到的几率就大。

  • glom():RDD[Array[T]],将原来的RDD按分区数量分隔为若干个数组

  • mapPartitions[U](f:(Iterator[T])=>Iterator[U],preserverPartioning Boolean = false):
    和map类似,不过参数由原来的RDD的每一个元素变成了RDD的一个迭代器
    还有若干操作。。。。

RDD的行动操作 actions

  • first():返回RDD的第一个元素,不排序
  • count():Long表示返回RDD中的元素的个数
  • reduce(f:(T,T)=>T):T 根据映射函数f,对RDD中元素进行二元计算
  • collect():Array[T] 表示将RDD转换为数组
  • take(num:Int):Array[T] 表示获取RDD中从0到num-1的元素,不排序
  • top(num:Int),按照降序获取前num个元素
  • aggregate和fold 聚合用的
    *lookup(Key:K):Seq[V] lookup用于(K,V)类型的RDD,指定K值返回RDD中该K对于的所有的V值。
  • countByKey():Map[K,Long]
  • foreach(f:(T)=>Unit):Unit (foreach只会在executor端有效,对Driver端无效)
  • foreachPartition(f:(Iterator[T]=>Unit):Unit
    *sortBy[K](f:(T)=>K,ascending:Boolean = true,numPartitions:Int=this.partitions.length):RDD[T]
    存储行动
  • saveAsTextFile(path:String):Unit
  • saveAsSequenceFile
  • saveAsObjectFile 将RDD中的元素序列化为对象

在spark shell中使用saveAsTextFile将一个rdd对象存入hdfs中,然后查看。




保存的形式是一个文件夹,里面包含三个文件,一个_SUCCESS文件,两个part文件,因为我们的在建立rdd1的时候是指定的两个分区。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容