spark整理笔记

运行示例和shell

可以通过一个改进版的scala shell来运行交互式的spark。这是一个来学习该框架比较好的方式。

./bin/spark-shell --master local[2]

该--master选项可以指定为针对分布式集群的master URL，或者以local模式使用1个线程在本地运行，local[N] 会使用N个线程在本地运行。你应该先使用local模式进行测试。可以通过-help指令来获取spark-sell的所以配置项。Spark同样支持Python API。

MapReduce

MapReduce 是一种分布式计算模型，是google提出的，主要用于搜索领域，解决海量计算问题。

MR有两个阶段组成：Map和Redue，用户只需要实现map()和reduce()两个函数，即可实现分布式计算。

spark运行模式

* local: 主要用于开发调试Spark应用程序

*standlone: 利用spark自带的资源管理与调度器运行Spark集群，采用Master/Slave结构，为解决单点故障，可以采用Xookeeper实现高可靠。

* apache mesos：运行在著名的Mesos资源管理框架基础之上，该集群运行模式将资源管理交给Mesos，Spark只负责运行任务调度和计算

* Hadoop YARN：集群运行在yarn资源管理器上，资源管理交给yarn，Spark只负责进行任务调度和计算。

每个spark应用都由一个驱动器程序来发起集群上的各种并行操作。

集群模式-- 组件

spark应用在集群上作为独立的进程组来运行，在您的main程序中通过SparkConext来协调（称之为driver程序）。

具体的说，为了运行在集群上，SparkContext可以连接至几种类型的Cluster Manager(既可以用Spark自己的Standlone Cluster Manager，或者Mesos，也可以使用YARN), 它们会分配应用的资源。一旦连接上，Spark获得集群中节点上的Executer，这些进程可以运行计算并且为您的应用存储数据。

注意点：

每个应用获取到它自己的Executor进程，它们会保持在整个应用的生命周期中并且在多个线程中运行Task。这样做的优点是把应用互相隔离，在调度方面和Executor方面。然而，这也意味着若是不把数据写到外部的存储系统中的话，数据就不能够被不同的Spark应用之间共享。

Spark是不知道底层的Cluser Manager到底是什么类型的。只要它能够获得Executor进程，并且它们可以和彼此之间通信，那么即使是在一个也支持其他应用的Cluster Manager上来运行也是简单的。？？

？？？

每一个Spark应用程序由一个在集群上运行着用户的main函数和执行各种并行操作的driver program(驱动程序)组成。Spark提供的主要抽象是一个弹性分布式数据集（RDD）,它是可以执行并行操作且跨集群节点的元素集合。RDD可以从一个Hadoop文件系统，或者一个在driver program中已经存在的Scala集合，以及通过transforming来创建一个RDD。

在Spark中的第二个抽象是能够用于并行操作的shared variables(共享变量), 默认情况下，当spark的一个函数作为一组不同节点上的任务运行时，它将每一个变量的副本应用到每一个任务的函数中去。

初始化Spark

Spark程序必须做的第一件事情是创建一个SparkContext对象，它会告诉Spark如何访问集群。要创建一个SparkContext，首先需要构建一个包含应用程序的信息的SparkConf对象。

每一个JVM可能只能激活一个SparkContext对象。????????

在创建一个新的对象之前，必须调用stop() 该方法停止活跃的SparkContext。

val conf = new SparkConf().setAppName(appName).setMaster(master)

new SparkContext(conf)

这个appName参数是一个在集群UI上展示应用程序的名称。master是一个Spark Mesos或YARN 的cluster URL，或者指定为在local mode中运行"local"字符串。（Master URL 意义： local[K,F] 使用k个线程跑spark，并允许失败F次。）

外部数据集

Spark可以从Hadoop所支持的任何存储源中创建distributed dataset（分布式数据集），包括本地文件系统，HDFS,Cssandra，HBase等等

可以使用SparkContext的textFile方法来创建文本文件的RDD.

scala> val distFile = sc.textFile("data.txt")

使用Spark读取文件时需注意：如果使用本地文件系统的路径，所工作节点的相同访问路径下该文件必须可以访问。所有spark基于文件的input方法，包括textFie，支持在目录上运行，压缩文件和通配符，例如 textFile（"/my/directory/*.txt")

RDD 操作

RDDs Support两种类型的操作：transformations（转换），它会在一个已经存在的dataset上创建一个新的dataset，和actions，将在dataset上运行的计算后返回到driver程序。

spark中素有的transformations都是lazy的，因此它不会立刻计算出结果。只有当需要返回结果给驱动程序时，transformations才开始计算。

默认情况下，每次你在RDD运行一个action时，每个transfrmed RDD 都会被重新计算。但是，您也可以用persist方法将RDD persist（持久化）到内存中；在这种情况下，Spark为了下次查询时可以更快地访问，会把数据保存在集群上。此外，还支持持续持久化RDDs到磁盘，或复制到多个结点。

RDD 基础介绍

val lines = sc.textFile("data.txt")

val lineLengths = lines.map(s => s.length)

val totalLength = lineLengths.reduce((a, b) => a + b)

说明：第一行从外部文件定义了一个基本的RDD，但这个数据集并未加载到内存中或即将被行动，line仅仅是一个类似指针的东西，指向该文件。

第二行定义了lineLengths作为map transformation的结果，由于laziness延迟加载lineLength不会被立即计算。

最后，运行reduce，这是一个action。此时，Spark分发计算任务到不同的机器上运行，每台机器都运行在map的一部分并本地运行reduce，仅仅返回它聚合后的结果给驱动程序。

传递Functions给Spark

。。。

执行作业时，Spark会分解RDD操作到每个executor中的task里。在执行之前，Spark计算任务的closure（闭包）。闭包是指executor要在RDD上进行计算时必须对执行节点可见的那些变量和方法（在这里是foreach()）。闭包被序列化并发送到每个executor。

闭包的变量副本发给每个executor，当counter被foreach函数引用的时候，它已经不再是driver node的counter了。。。

如何打印所有元素？

单机语法：rdd.foreach(println) 或 rdd.map(println)

集群模式：要打因driver程序所有元素，可以使用collect()。方法是先把RDD放到driver程序节点上 rdd.collect().foreach(println)。

这样可能会导致driver程序耗尽内存，因为collect()获取整个rdd到一台机器；如果只打印rdd的几个元素，可以使用take(): rdd.take(100).foreach(println)。

什么是shuffle？？？

　　ｓｐａｒｋ里的某些操作会触发ｓｈｕｆｆｌｅ。

　　Ｓｈｕｆｆｌｅ是ｓｐａｒｋ重新分配数据的一种机制，使得这些数据可以跨不同的区域进行分组。这通常涉及子ｅｘｅｃｕｔｏｒｓ和机器之间拷贝数据，使得ｓｈｕｆｆｌｅ成为复杂的，代价高的操作。

共享变量

　　通常情况下，一个传递给ｓｐａｒｋ操作（例如ｍａｐ或ｒｅｄｕｃｅ）的函数ｆｕｎｃ是在远程的集群节点上执行的。该函数ｆｕｎｃ在多个节点执行过程中使用的变量，是同一个变量的多个副本。这些变量以副本的方式拷贝到每个机器上，并且各个远程机器上变量的更新并不会传播回ｄｒｉｖｅｒ　ｐｒｏｇｒａｍ（驱动程序）。通用且支持ｒｅａｄ－ｗｒｉｔｅ（读－写）的共享变量在任务间是不能胜任的。所以，ｓｐａｒｋ提供了两种类型的共享变量：ｂｒｏａｄｃａｓｔ　ｖａｒｉａｂｌｅｓ（广播变量）

　　　　　　　和　ａｃｃｕｍｕｌａｔｏｒｓ（累加器）

广播变量

　　广播变量允许程序员将一个ｒｅａｄ－ｏｎｌｙ的

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,172评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,346评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 159,788评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,299评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,409评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,467评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,476评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,262评论 0赞 269
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,699评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,994评论 2赞 328
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,167评论 1赞 343
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,827评论 4赞 337
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,499评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,149评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,387评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,028评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,055评论 2赞 352

spark整理笔记

推荐阅读更多精彩内容