Spark简介

1.Spark基本概念

Spark是一种基于内存计算的大数据并行计算框架，最早是由加州大学伯克利分校开发，现已经成为Apche顶级开源项目，其作为MapReduce 的替代方案，兼容HDFS、Hive等分布式存储层，相对于MapReduce其具有以下优点：

基于内存计算，避免了大量IO操作，速度快
秉持移动计算优于移动数据的理念，大大减少了文件的传输代价
更好的容错性
提供了实时的流处理功能
简单易用
强大的社区支持
支持多语言编程接口

2.Spark 与 Hadoop

Spark作为hadoop大数据处理体系中的一员，最新的架构基于hadoop2.0，如下图所示：

hadoop2.0

Hadoop2.0的架构分为三层，最底层为分布式存储系统即HDFS,中间层为资源管理系统，广泛使用Yarn，最上层为分布式计算框架层，在这一层可以存在各种各样的并行计算框架，比如MapReduce、Spark等，其实在hadoop1.0时是没有资源管理系统这一层的，在老版本中，是由资源管理模块来对计算资源进行管理的，不同的分布式计算框架对应不同的资源管理模块，MapReduce 对应MapReduce的资源管理模块，Spark对应Spark的资源管理模块，随着大数据处理技术的不断发展，出现了各式各样的计算框架，为了使Hadoop更好的支持这些计算框架，因此2.0中提出了资源管理系统层，所有计算框架的资源统一由资源管理系统来分配管理，从而可以更好的支持不断推陈出新的计算框架；

3.Spark生态系统

Spark生态系统

Spark主要提供了上图所示的几部分功能：

SparkCore ：基于RDD提供了丰富的操作接口，更加灵活的处理批处理作业
Spark SQL：兼容Hive的接口HQL，提供更快速度的SQL查询
Spark Streaming：将流式计算分解为短批处理作业，支持流式处理作业
GraphX：基于Spark的图处理框架，提供图构建及图转换功能
MLlib: 构建在Spark上的机器学习算法库，支持常见的推荐算法、聚类算法

4.Spark RDD

在Spark中最为关键的当属RDD(Resilient Distributed DataSets) ，全称：弹性分布式数据集，RDD存储在内存中，因此大大减少了像MapReduce中的文件IO操作，提高了运算速度，RDD来源只有两个途径：

来自于内存集合和外部存储系统
来自于其他RDD，比如通过转换操作：map、filter、join等
RDD具有以下五种特性：
分区属性：每个RDD由若干个partition构成
依赖关系：RDD之间是具有依赖关系的，下一小节会详细介绍
分区单位计算：RDD中的计算都是以分区为单位的，即每个运算作用于一个分区中的所有元素
分区函数：分为哈希分区函数及区域分区函数
优先位置：Spark秉承移动数据不如移动计算的理念，在生成运算任务时优先会将计算放在数据所在的节点上，尽量避免数据的传输开销

4.1 RDD 依赖关系

RDD依赖关系分为两种，窄依赖与宽依赖，两者定义如下：

窄依赖：是指每个父RDD的一个Partition最多被子RDD的一个Partition所使用，例如map、filter、union等操作都会产生窄依赖；
宽依赖：是指一个父RDD的Partition会被多个子RDD的Partition所使用，例如groupByKey、reduceByKey、sortByKey等操作都会产生宽依赖；
依赖关系是Spark切分任务阶段的依据；

窄依赖与宽依赖

RDD之间的依赖关系是Spark拆分任务阶段的依据，后面会详细讲解；

4.2 RDD操作

RDD操作可简单分为两类，一类为Transformation操作，另一类为Action操作，两者区别如下：

RDD操作分类

可以简单的认为Transformation操作只是建立了RDD之间的逻辑关系，并不会真正触发运算，只有遇到Action操作后才会真正触发作业的提交，一个spark程序会穿插着Transformation操作与Action操作，Action才会得到最终的结果；

5.Spark运行模式及原理

Spark运行原理示意图

如图中所示：一个Spark程序可从逻辑上拆分为Driver程序与Worker程序，Driver程序在运行过程中会创建SparkContext,SparkContext是整个程序的入口，SparkContext在初始化过程中会创建DAGScheduler和TaskScheduler，分别负责作业调度和任务调度，这两个模块是Spark程序切分作业及任务调度最为核心的模块，后面小节会进行详细介绍，SparkContext通过资源管理模块与Executor通讯，在SparkContext申请到计算资源后，会将任务分配到具体的Executor上运行；

5.1 Spark调度管理

Spark调度相关基本概念：

Task（任务）：单个分区数据集上最小的处理流程单元
TaskSet(任务集)：一组关联的并且无依赖关系的任务集合
Stage（调度阶段）：一个任务集合对应一个调度阶段
Job（作业）：由一个或多个调度阶段组成
Application（应用程序）:由一个或多个作业组成
其之间的关系可用下图表示：

关系示意图

Spark调度管理主要由DAGScheduler和TaskScheduler负责：

作业调度-DAGScheduler– 任务的规划者
任务调度-TaskScheduler– 任务的执行者

Spark调度管理

SparkContext初始化过程中会生成DAG图，DAG图表示了整个任务中RDD之间的逻辑关系，DAGScheduler会从该图的终结点向前开始遍历，当遇到宽依赖时会将当前遍历的RDD操作划归于一个调度阶段（即一个任务集合），然后再进行下一阶段的遍历，最后将由若干个调度阶段组成的作业提交给TaskScheduler，作业的执行是按照调度阶段顺序有序执行的，只有前一阶段执行成功后才会进行下一阶段的调度，当任务集合提交给TaskScheduler后，任务集管理模块会创建TaskSetManager实例来对该任务集进行管理，申请到资源后任务开始执行，任务执行结束后结果会反馈给TaskScheduler，任务集任务执行情况同样会反馈给DAGScheduler，当前阶段任务集执行成功后会依次进行下一阶段任务集的调度；

6.Spark任务监控

Spark自带了UI界面来向用户展示作业的执行情况；通过UI界面可以查看Job，Stage，Storge等的执行情况；

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,240评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,328评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,182评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,121评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,135评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,093评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,013评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,854评论 0赞 273
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,295评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,513评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,678评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,398评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,989评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,636评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,801评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,657评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,558评论 2赞 352