Spark

Spark core

一、 spark是一个分布式同通用计算框架,可用于离线大数据处理、实时流计算、交互式计算、图计算等,集成了SparkSQL、SparkStream、MLLib等库,提供了丰富的API。

spark中针对弹性分布数据集RDD进行计算,RDD可缓存在内存或磁盘中,程序运行结束时删除。可通过sc.testFile()、其他RDD通过转化因子转化,DF/DS转化等方式构建成RDD。RDD会有多个分区,如果从HDFS上读取的数据,如果不指定分区,默认分区与block块一一对应,如果不指定最小分区数,默认为2。

spark提供两种算子对RDD进行计算,Transformation 和 Action,Transformation 为惰性执行,只记录关系,当执行Action算子时,才会触发Transformatin的一系列执行操作,生成新的RDD。一个Action对应一个job。

spark与mapReduce的相比,具有优势:

1.计算速度快,spark采用了缓存机制,中间结果不用写入HDFS再读取,减少了IO消耗。

2.spark采用DAG引擎、以及执行任务时,excutor中采用多线程方式处理,提升了任务执行速度。container中不能多线程吗?

2.mr只有map 和 reduce两种语义,实现复杂的逻辑不够灵活,spark提供了丰富的Transformation 和 action 算子,实现较为方便

二、spark的程序运行结构

1. Driver:Driver中封装了SparkContext,一个程序对应一个driver,main函数运行在driver中,driver负责程序的解析。sparkContext加载程序运行的环境,及创建内部的DAGscheduler和TaskSchedule。

TaskSchedule将任务调度到WordNode的Executor中,一和节点可以启动多个Executor中,每个Executor中可以以多线程方式运行多个Task。

spark程序内部执行流程:

1.根据Transformation算子,查询RDD间的依赖关系,构建逻辑查询计划

2.构建物理查询计划:由DAGSchedule 构建DAG图,根据算子是否为宽依赖进行Stage划分,一个Stage中生成一组Task,组成一个TaskSet,task可并行执行,提交给TaskSchedule

3.TaskSchedule将任务调度到Executor,以及负责任务失败的重新调度,执行较慢的任务启动备份执行等。

三、Spark-shuffle

划分Stage时,类似MR的Shuffle,sparkShuffle分为 shuffleWrite 和 shuffleRead阶段,

shuffleWrite:将Task中间结果写入磁盘

shuffleRead:从磁盘拉取数据到内存中进行并行计算

shuffleWrite 方式有:

基于Hash:将每一个mapTask的结果对ReduceTaskNum取余,将结果写入本地小文件,例,一个Executor中有2个MapTask,3个ReduceTask,则每个MapTask会生成3个小文件,分别对应3个ReduceTask,在写入小文件时,会先将数据写到buffer缓冲区,再写入小文件。基于Hash的方式会生成大量小文件,增加IO消耗,且消耗缓冲区。

基于Hash的优化版:如果一个Excutor中有多个MapTask,余数相同的会写入相同的小文件中,例,一个Executor中有2个MapTask,3个ReduceTask,则该Executor中会生成3个小文件,减少了小文件个数,但未减少缓冲区消耗。

基于Sort:


shuffleRead 方式:

基于Hash的优化版、基于Sort 的shuffleWrite 采用相同的shuffleRead实现,将拉取的数据写入到HashMap中,如果需要对key进行排序,则排序后写入HashMap中(HashMap本身是无序的,用的是linkHashMap?),HasHMap写满后,溢出一个小文件到磁盘中,最后将多个小文件进行归并排序合成大文件,进行处理输出。

四、Spark运行模型

1.本地local方式运行 spark-shell

2.独立集群模式

3.结合其他调度系统,例如Spark-on-YARN

参见 https://blog.csdn.net/swing2008/article/details/60869183

五、常用算子

reduceBykey、groupByKey等

SparkSQL

一、sparkSql:基于spark的SQL引擎,提供更加丰富的数据源及API:DF、DS;可通过SQL、DF、DS来对数据进行处理。

使用SQL操作Spark组件,进行数据分析。

与spark core相比:

1. 提供数据集类型DF(schema +RDD)、DS 处理结构化数据,比直接操作RDD简单方便

2. 提供更多灵活API,例如读写多种数据源的数据,json等,可以通过API直接解析

3.内置优化器catalyst自动优化程序(优化逻辑查询计划等),而且效率较高,若直接操作RDD,还需要自己优化程序。

相比直接利用Spark SQL处理数据,利用 spark DF/DS 处理数据,可以实现复杂的语义逻辑,例如实现算法等,用SQL处理较复杂的逻辑实现很困难。

RDD的算子,DF、DS基本都支持,RDD可处理 结构化/非结构化 数据,DF/DS 只能处理结构化数据。三者可相互转化。


spark SQL: 适用于交互式查询,实时查询,数据量不太大,响应时间快的操作。

Hive:适用于大规模的数据查询分析,对响应时间要求较低的操作。(底层是mr)

广泛应用场景:

部署 spark thrift server, 接受BI系统的SQL请求,转化为spark 引擎处理,读取hive中的数据。

二、程序流程


三、Spark Streaming

将流式计算转化为一批很小的,确定的批处理作业。以秒(分钟等)为单位将作业切分成很小的离散的作业(以时间为单位切分数据流)。  低延迟,秒级别。

特有算子:

window

mapWithStatus:类似Spark自己维护的分布式HashMap(不需要再借助外部存储,节约与外部存储交互的开销),状态信息以KeyValue形式存储状态信息。实时操作中的状态信息。适合保存短时间内的状态信息用于分析。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,997评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,603评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,359评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,309评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,346评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,258评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,122评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,970评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,403评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,596评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,769评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,464评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,075评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,705评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,848评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,831评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,678评论 2 354

推荐阅读更多精彩内容