spark整理笔记

运行示例和shell

可以通过一个改进版的scala shell来运行交互式的spark。这是一个来学习该框架比较好的方式。

./bin/spark-shell --master local[2]

该--master选项可以指定为针对分布式集群的master URL, 或者以local模式使用1个线程在本地运行,local[N] 会使用N个线程在本地运行。你应该先使用local模式进行测试。可以通过-help指令来获取spark-sell的所以配置项。Spark同样支持Python API。

MapReduce

MapReduce 是一种分布式计算模型,是google提出的,主要用于搜索领域,解决海量计算问题。

MR有两个阶段组成:Map和Redue,用户只需要实现map()和reduce()两个函数,即可实现分布式计算。


spark运行模式

* local: 主要用于开发调试Spark应用程序

*standlone: 利用spark自带的资源管理与调度器运行Spark集群,采用Master/Slave结构,为解决单点故障,可以采用Xookeeper实现高可靠。

* apache mesos: 运行在著名的Mesos资源管理框架基础之上,该集群运行模式将资源管理交给Mesos,Spark只负责运行任务调度和计算

* Hadoop YARN: 集群运行在yarn资源管理器上,资源管理交给yarn,Spark只负责进行任务调度和计算。

每个spark应用都由一个驱动器程序来发起集群上的各种并行操作。

集群模式-- 组件

spark应用在集群上作为独立的进程组来运行,在您的main程序中通过SparkConext来协调(称之为driver程序)。

具体的说,为了运行在集群上,SparkContext可以连接至几种类型的Cluster Manager(既可以用Spark自己的Standlone Cluster Manager,或者Mesos,也可以使用YARN), 它们会分配应用的资源。一旦连接上,Spark获得集群中节点上的Executer,这些进程可以运行计算并且为您的应用存储数据。

注意点:

每个应用获取到它自己的Executor进程,它们会保持在整个应用的生命周期中并且在多个线程中运行Task。这样做的优点是把应用互相隔离,在调度方面和Executor方面。然而,这也意味着若是不把数据写到外部的存储系统中的话,数据就不能够被不同的Spark应用之间共享。

Spark是不知道底层的Cluser Manager到底是什么类型的。只要它能够获得Executor进程,并且它们可以和彼此之间通信,那么即使是在一个也支持其他应用的Cluster Manager上来运行也是简单的。??

???

每一个Spark应用程序由一个在集群上运行着用户的main函数和执行各种并行操作的driver program(驱动程序)组成。Spark提供的主要抽象是一个弹性分布式数据集(RDD),它是可以执行并行操作且跨集群节点的元素集合。RDD可以从一个Hadoop文件系统,或者一个在driver program中已经存在的Scala集合,以及通过transforming来创建一个RDD。


在Spark中的第二个抽象是能够用于并行操作的shared variables(共享变量), 默认情况下,当spark的一个函数作为一组不同节点上的任务运行时,它将每一个变量的副本应用到每一个任务的函数中去。


初始化Spark


Spark程序必须做的第一件事情是创建一个SparkContext对象,它会告诉Spark如何访问集群。要创建一个SparkContext,首先需要构建一个包含应用程序的信息的SparkConf对象。

每一个JVM可能只能激活一个SparkContext对象。????????

在创建一个新的对象之前,必须调用stop() 该方法停止活跃的SparkContext。

 val conf = new SparkConf().setAppName(appName).setMaster(master)

new SparkContext(conf)

这个appName参数是一个在集群UI上展示应用程序的名称。master是一个Spark Mesos或YARN 的cluster URL,或者指定为在local mode中运行"local"字符串。(Master URL 意义: local[K,F] 使用k个线程跑spark,并允许失败F次。)

外部数据集

Spark可以从Hadoop所支持的任何存储源中创建distributed dataset(分布式数据集),包括本地文件系统,HDFS,Cssandra,HBase等等

可以使用SparkContext的textFile方法来创建文本文件的RDD.

scala> val distFile = sc.textFile("data.txt")


使用Spark读取文件时需注意:如果使用本地文件系统的路径,所工作节点的相同访问路径下该文件必须可以访问。所有spark基于文件的input方法,包括textFie,支持在目录上运行,压缩文件和通配符,例如 textFile("/my/directory/*.txt")


RDD 操作

RDDs Support两种类型的操作:transformations(转换),它会在一个已经存在的dataset上创建一个新的dataset,和actions,将在dataset上运行的计算后返回到driver程序。

spark中素有的transformations都是lazy的,因此它不会立刻计算出结果。只有当需要返回结果给驱动程序时,transformations才开始计算。

默认情况下,每次你在RDD运行一个action时,每个transfrmed RDD 都会被重新计算。但是,您也可以用persist方法将RDD persist(持久化)到内存中;在这种情况下,Spark为了下次查询时可以更快地访问,会把数据保存在集群上。此外,还支持持续持久化RDDs到磁盘,或复制到多个结点。

RDD 基础介绍

val lines = sc.textFile("data.txt")

val lineLengths = lines.map(s => s.length)

val totalLength = lineLengths.reduce((a, b) => a + b)

说明:第一行从外部文件定义了一个基本的RDD,但这个数据集并未加载到内存中或即将被行动,line仅仅是一个类似指针的东西,指向该文件。

第二行定义了lineLengths作为map transformation的结果,由于laziness延迟加载lineLength不会被立即计算。

最后,运行reduce,这是一个action。此时,Spark分发计算任务到不同的机器上运行,每台机器都运行在map的一部分并本地运行reduce,仅仅返回它聚合后的结果给驱动程序。


传递Functions给Spark

。。。


执行作业时,Spark会分解RDD操作到每个executor中的task里。在执行之前,Spark计算任务的closure(闭包)。闭包是指executor要在RDD上进行计算时必须对执行节点可见的那些变量和方法(在这里是foreach())。闭包被 序列化并发送到每个executor。

闭包的变量副本发给每个executor,当counter被foreach函数引用的时候,它已经不再是driver node的counter了 。。。


如何打印所有元素?

单机语法:rdd.foreach(println) 或 rdd.map(println)

集群模式:要打因driver程序所有元素,可以使用collect()。方法是先把RDD放到driver程序节点上 rdd.collect().foreach(println)。

这样可能会导致driver程序耗尽内存,因为collect()获取整个rdd到一台机器;如果只打印rdd的几个元素,可以使用take(): rdd.take(100).foreach(println)。

什么是shuffle???

  spark里的某些操作会触发shuffle。

  Shuffle是spark重新分配数据的一种机制,使得这些数据可以跨不同的区域进行分组。这通常涉及子executors和机器之间拷贝数据,使得shuffle成为复杂的,代价高的操作。


共享变量

  通常情况下,一个传递给spark操作(例如map或reduce)的函数func是在远程的集群节点上执行的。该函数func在多个节点执行过程中使用的变量,是同一个变量的多个副本。这些变量以副本的方式拷贝到每个机器上,并且各个远程机器上变量的更新并不会传播回driver program(驱动程序)。通用且支持read-write(读-写)的共享变量在任务间是不能胜任的。所以,spark提供了两种类型的共享变量:broadcast variables(广播变量)

       和 accumulators(累加器)


广播变量

  广播变量允许程序员将一个read-only的

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352

推荐阅读更多精彩内容