Spark入门教程(八)Spark共享变量: 广播变量和累加器

本文全部手写原创,请勿复制粘贴、转载请注明出处,谢谢配合!

前言:Spark是集群部署的,具有很多节点,节点之间的运算是相互独立的,Spark会自动把闭包中所有引用到的变量发送到每个工作节点上。虽然很方便,但有时也很低效,比如你可能会在多个并行操作中使用同一个变量,而Spark每次都要把它分别发送给每个节点。所以共享变量的存在是很有必要的。

累加器


讲概念之前先演示一个案例:该案例需求是累加count,对于每个X都进行一次count=count+1,代码毫无疑问是正确的,但是却没有得到正确的结果,为什么呢?

scala> val rdd = sc.parallelize(1 to 10,3)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[10] at parallelize at <console>:24
   
scala> var count = 0
count: Int = 0

scala> rdd.map(x=> { count=count+1;println("x: "+x+" count: "+count) }).collect()
x: 1 count: 1
x: 2 count: 2
x: 3 count: 3
x: 4 count: 1
x: 5 count: 2
x: 6 count: 3
x: 7 count: 1
x: 8 count: 2
x: 9 count: 3
x: 10 count: 4
res19: Array[Unit] = Array((), (), (), (), (), (), (), (), (), ())

原因:大数据操作几乎都是并行的,分节点的,分区的,在此例中我们分了三个区。但是集群中每个节点的运算时独立的,每个运行的任务都会得到该变量的一份新的副本,更新这些副本的值不会影响驱动器中的对应变量
所以我们需要一个共享变量:累加器。累加器的作用就是多个节点之间共享一个变量。它将工作节点的值聚合到驱动器程序。

使用方法:

scala> val rdd = sc.parallelize(1 to 10,3)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

scala> val accum = sc.longAccumulator("Count Add")
accum: org.apache.spark.util.LongAccumulator = LongAccumulator(id: 0, name: Some(Count Add), value: 0)

scala> rdd.foreach(x => accum.add(x))
                                                                                
scala> accum.value
res3: Long = 55
  • 在驱动器中调用 SparkContext中的Accumulato相关方法创建累加器,并给它定义name,方便在Web UI中查看。

def doubleAccumulator(name: String): DoubleAccumulator
Create and register a double accumulator, which starts with 0 and accumulates inputs by add.
def longAccumulator(name: String): LongAccumulator
Create and register a long accumulator, which starts with 0 and accumulates inputs by add

  • Spark闭包里的执行器代码可以使用累加器的add方法增加累加器的值。

def add(v: Long): Unit
Adds v to the accumulator, i.e.

  • 驱动器程序可以调用累加器的 value 属性来访问累加器的值。

def value: Long
Defines the current value of this accumulator

  • WEB UI中可以查看累加进度,跟踪UI中的累加器对于理解运行阶段的进度很有用


    WEB UI

注意:本案例基于2.2.0版本。2.0以下版本的使用方法不同,直接用sc.accumulator(0),并使用+=累加,请自行参考API。

广播变量


广播变量就是要解决我们前言中提到的,假如我们多个并行操作会用到同一个变量,而Spark每次都将这个变量自动分发到每个节点,如果变量很大,那么会很低效。我们可以引入一个广播变量,它可以让程序高效的给所有工作节点发送一个较大的可读值,而不是每个任务保存一份拷贝。这样该变量不会多次发送到各节点,提高了效率。
使用方法:使用sparkContext的broadcast()创建广播变量。使用value属性访问广播值。使用unpersist()清除广播变量。

def broadcast[T](value: T)(implicit arg0: ClassTag[T]): Broadcast[T]
Broadcast a read-only variable to the cluster, returning org.apache.spark.broadcast.Broadcast object for reading it in distributed functions. The variable will be sent to each cluster only once.
value:value to broadcast to the Spark nodes
returns:Broadcast object, a read-only variable cached on each machine

scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))
broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(3)

scala> broadcastVar.value
res6: Array[Int] = Array(1, 2, 3)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351