Spark简单介绍(二)

spark是什么? 

spark开源的类Hadoop MapReduce的通用的并行计算框架 

spark基于map reduce算法实现的分布式计算 

拥有Hadoop MapReduce所具有的优点 

但不同于MapReduce的是Job中间输出和结果可以保存在内存中 

从而不再需要读写HDFS

从上面的官方解释中我们可以得到的信息时,spark是一套并行计算的框架,并且性能要比hadoop的map-reduce好

那么到底性能比较好是体现在哪里呢

基于内存的处理是spark速度快的原因之一

还有一个很重要的因素就是DAG 

DAG,有向无循环图 

spark的任务可以分为数据转换和获得结果两步 

在获得计算结果之前的操作,都是不执行的,而是根据这些步骤画成一张DAG 

到真正要结果的时候才会执行这些计算,拿到计算结果 

熟悉hadoop mr模型的人都知道,在mr任务中,每次步骤都会读取HDFS,也就是I/O操作,而一般来说,在数据转换操作过程中产生的中间数据我们是不需要保存在磁盘的(当然这么做的原因也有容错性的因素) 

和spark一对比,mr的速度当然被爆10086条大街

另外一个原因就是spark的容错处理机制,在hadoop中一旦某个执行步骤出现问题,那么之前的所有操作都要重新计算。在spark中则只要重新执行出错的步骤即可

简单来说,可以将spark看成是一个开发分布式并行计算程序的SDK,通过spark生态圈提供的各种API来进行开发

spark生态圈大致如下图: 

从图中左下角可以看出,spark既可以直接对hadoop的hdfs进行操作,也能在Amazon的S3上运行 

spark和hadoop的关系其实是十分紧密的,它可以在hadoop中和传统的mr任务并存,共享数据信息等

一句话概括spark生态圈的组件

SparkStreaming:一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、 Zero和TCP 套接字)进行类似map、reduce、join、window等复杂操作

SharkSQL:可以将hive的sql语句在spark上执行

BlinkDB:一个在速度和精度上做抉择的交互式查询系统,用户查询的时候可以选择查询的速度或者精度,二者选一

MLbase/MLlib:MLlib是Spark实现一些常见的机器学习算法和实用程序,包括分类,回归,聚类,协同过滤,降维,以及底层优化。

GraphX:基于Spark的图处理和图并行计算API

spark生态圈的各个组件计算都是以一种名为RDD的数据结构为基础的 

首先RDD是一种数据结构,根据不同的使用场景,如实时流处理或者批处理都会生成不同的RDD模型 

但是各种RDD模型之间都有互相转换的方式,也就是说,spark各个组件之间处理的数据都可以很方便的进行交流互换 

RDD将各个组件融合在spark平台上(不同的组件提供不同的功能,根据需求组合组件处理问题)使得spark能够适用于各种大数据场合 

spark RDD之间存在着明确的依赖关系,一旦某个环节发生错误,可以根据这种依赖找到错误的父节点来进行重新操作,所以spark在容错性方面十分强大

Spark生态圈以Spark为核心、以RDD为基础,打造了一个基于内存计算的大数据平台,为人们提供了all-in-one的数据处理方案。人们可以 根据不同的场景使用spark生态圈的多个产品来解决应用,而不是使用多个隔离的系统来满足场景需求。

众所周知,在大数据的实时流处理方面storm一直是一个热点,那么和spark的streaming相比如何呢? 

storm的亮点在与处理延迟是毫秒级别的,而吞吐量不高 

spark streaming则是高吞吐量,处理延迟是秒级的 

两者可以使一种互补的关系

上面说过spark任务的容错处理 

那么如果spark集群中有节点罢工了怎么办? 

如果是master主节点挂了怎么办?

对于第一个问题,如果有slave node在工作环境中当掉了,master对起一个新的节点来进行同样的工作,哪个节点先完成任务就采用哪个节点,那么master是如何知道slave node的状态呢?–心跳机制,相信熟悉hadoop的人对心跳机制不会陌生

至于第二个问题,很多人都会想到HA,其实很简单,zookeeper 

zookeeper框架可以保证master节点的安全容错性,并且可以同步数据

现在大家知道spark是基于内存来进行计算的,但是在spark集群中,一个集群一起执行一个任务,那么这个集群之间每台机器是如何共享内存的??–Tachyon可以做到这一点

一、Spark是什么

1、与Hadoop的关系

如今Hadoop已经不能狭义地称它为软件了,Hadoop广泛的说可以是一套完整的生态系统,可以包括HDFS、Map-Reduce、HBASE、HIVE等等。。

而Spark是一个计算框架,注意,是计算框架 

其可以运行在Hadoop之上,绝大部分情况下是基于HDFS

说代替Hadoop其实是代替Hadoop中的Map-Reduce,用来解决Map-Reduce带来的一些问题

更具体地讲,Spark是基于内存的 大数据并行计算框架,可以完美的融入到Hadoop的生态系统中去

而既然是分布式框架必须要解决的两个问题: 

1、可扩展性 

2、容错性

Spark是如何解决这两个问题待之后整理发布

2、相对于Map-Reduce的迭代模型,Spark的计算模型有何优缺点?

优势: 

(1)基于内存,计算速度快 

迭代过程中,通过RDD算子生产DAG图的方式,无须将中间数据写入磁盘中

(2)DAG图的执行策略 

只有Action操作才会触发执行Job,记录了每个Job的执行流程,形成Lineage和划分Stage等

(3)使用AKKA作为事件驱动来调度任务,开销小

(4)全栈支持

缺陷: 

(1)机器配置要求比Map-Reduce高 

(2)牺牲硬件提高性能

3、Spark能带来什么?

(1)全栈多计算范式,不仅仅只是简单的Map-Reduce操作,SQL查询、流计算、机器学习、图算法 

这里有你想要的一切~

(2)轻量级快速处理:基于内存

(3)支持多语言,丰富的算子,允许在Shell中进行交互式计算,像书写单机程序一样书写分布式程序(这就是Spark诞生的目的)

(4)与HDFS等存储层兼容,可以独立运行,可以运行与Yarn等集群管理系统,可以读取和使用任何Hadoop数据

没天理了~

二、Spark生态系统BDAS(数据分析栈)

Spark也可以脱离Hadoop而存在,它也有自己的生态系统 

主要的组件如下列表:

1、核心框架为Spark 

提供分布式编程框架 

提供除了MR之外的丰富算子以及计算模型 

将分布式数据抽象为弹性分布式数据集(RDD)

2、结构化数据SQL查询和分析引擎Spark SQL 

可直接执行SQL语句 

可执行Spark SQL提供的丰富的API 

基于RDD操作

3、分布式机器学习库Mllib

4、并行图计算框架GraphX

5、流计算框架Spark Streaming 

将实时数据按照指定时间片划分为流数据

6、近似计算查询引擎BlinkDB 

交互式SQL的近似查询 

允许用户在查询精确度和查询响应时间之间做出权衡

7、内存分布式文件系统Tachyon 

内存中的HDFS

8、资源管理框架Mesos 

提供类似Yarn的功能

9、1.4新特性SparkR

三、Spark构架

1、构架组成

Spark集群中一些核心概念:

(1)Master 

集群中含有Master进程的节点 

负责集群的协作和管理 

本身不参与计算任务 

在Yarn上运行时表现为ResourceManager

(2)Slaves 

集群中含有Worker进程的节点 

接受Master命令和进行状态汇报 

Worker本身并不是处理计算任务的 

在Yarn上运行时表现为NodeManager

(3)Driver 

负责控制Client提交的任务的执行 

执行程序的main函数并创建SparkContext 

分发Task到具体的Worker上的Executor 

分发任务执行所需要的file和jar包(序列化后)给Worker节点

(4)SparkContext:整个应用的上下文,控制应用的生命周期 

RDD:基本计算单元,提供丰富的算子,一组RDD可执行成DAG图 

DAGScheduler:输入DAG图,根据RDD之间的依赖关系划分为Stages输出 

TaskScheduler:输入Stages,将其划分为更小的Task分发给具体的Executor执行 

SparkEnv:存储运行时的重要组件的引用,包括: 

=>MapOutPutTracker:负责Shuffle元信息的存储 

=>Broadcastmanager:负责广播变量的控制与元信息的存储 

=>BlockManager:负责存储管理、创建和查找块 

=>MetricsSystem:监控运行时性能指标信息 

=> SparkConf:负责存储配置信息

(5)Client 

用户提交任务的工具

2、Spark执行任务流程(简略版)

(1)Client提交应用 

(2)Master找到Worker并启动Driver 

(3)Driver向Master申请资源 

(4)操作RDD形成DAG图交给DAGScheduler 

(5)DAGScheduler将DAG图划分为Stages输出给TaskScheduler 

(6)TaskScheduler划分Task分发给Worker节点上的Executor执行

四、 Spark分布式构架与单核构架的异同 

基本概念: 

(1)Spark是分布式计算框架 

(2)在上面可以编写分布式程序和软件

编写分布式程序需要注意的点: 

内存和磁盘共享问题

给大家推荐一个大数据学习交流群 806025609,群里会有学习大数据的资料和学习路线分享,大家碰到什么问题也可以得到解答。欢迎大家来一起交流学习!~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容