SparkCore基础(二)

* SparkCore基础(二)

继续探讨SparkCore,开门见山,不多废话。

SparkApplication结构探讨

包含关系:

之前我们运行过很多App了,其实每一个App都包含若干个Job任务;

而Job任务呢,一般都是由RDD的Action动作发出的eg:first、count、collect等等;

一个Job任务包含多个Stage,各个Stage之间是互相依赖的,比如,第一个stage没有走完,是不会走第二个stage的,对于同一个stage,所有的task的业务逻辑相同,而处理的数据不同;

一个Stage包含多个Task。

运行构成:

对于Spark Application的集群运行情况来讲,都有两个部分组成

** Driver:每个应用都有一个driver,在其中的main方法中实例化SparkContext,从而创建RDD,然后向Master或者ResourceManager申请资源来运行Executor,调度Job任务

** Executor:相当于MapReduce中的Map Task一样,是一个JVM进程,用于运行Task,以线程形式运行

下面是Spark集群的一些概念简述:

RDD进一步探讨

RDD是什么:

**  是一系列分区的数据集合,类似于Hadoop中的split

** 每个分区都可以应用某个函数去运算

** RDD之间具有依赖关系,例如,RDD1 转换为RDD2时,那么RDD2就依赖于RDD1

** 可以指定key-value形式的RDD的分区规则,比如hash

** RDD可以选择最优的读取数据的位置,比如:从内存读?从本地读?或者设置了多个副本,决定从哪个副本读数据是最优的。

IDEA工具开发Spark

Step1、创建一个Scala项目

Step2、创建项目名称以及指定路径后直接Finish

Step3、在File--Project Structure选项的Modules中创建目录结构如图,注意文件夹图标样式,main和test中的resources文件夹图标是有区别的

Step4、在Libraries中点击加号导入Spark相关依赖Jar(这里我导入的Jar是CDH-Spark根目录下的lib目录下的Jar,这里不需要导入example相关Jar)

Step5、将HDFS的两个配置文件拷入到resources目录下

Step6、创建一个Scala-object,编写代码如下:

运行即可

IDEA打包SparkJar

我们也可以使用IDEA打包编写好的SparkJar包然后使用spark-submit命令提交任务

Step1、点击Artifacts标签后,点击加号,选择JAR-from modules from dependencies

Step2、点击红框内容后,出现蓝框内容

Step3、搞定后,删除掉关于Spark和Hadoop的相关依赖,打包自己的工程时,不需要将Spark和Hadoop的Jar也打包入你的工程里,这样会增加你的工程的体积(官方描述:The user's jar should never include Hadoop or Spark libraries, however, these will be added at runtime.),点击减号删除到如下所示:

Step4、OK后,选择Build-Build Artifacts-Build,然后去对应目录下,拷贝出Build好的Jar到Linux,什么?不知道生成的Jar在哪?你看看上图中Output directory属性

Step5、运行你的Jar

$ bin/spark-submit --master spark://z01:7077 /home/z/Desktop/FirstSpark.jar

Spark在Yarn上运行

相关文档:http://spark.apache.org/docs/1.6.1/running-on-yarn.html

运行Spark应用有两种模式:

1、在Client端所在节点运行

这种情况比较适用于调试应用程序,比如:

Yarn:

bin/spark-submit \

--master yarn \

--deploy-mode client \

/home/z/Desktop/FirstSpark.jar

2、在Cluster中运行

Yarn:

$ bin/spark-submit \

--master yarn \

--deploy-mode cluster \

/home/z/Desktop/FirstSpark.jar

以上两种模式的区别在于:

Client模式:

Spark App的Driver请求ResourceManager,产生一个ApplicationMaster,然后由ApplicationMaster向ResourceManager申请资源,ResourceManager分配Container给NodeManager,然后由NodeManager运行其上的Executor。

Cluster模式:

Driver运行节点即ApplicationMaster节点,后面的操作你懂得,跟Client模式差不多了。

注意:spark-shell只能在client模式下运行,比如默认deploty-mode其实如下

Standalone:

$ bin/spark-shell --master spark://z01:7077 --deploy-mode client

Spark的广播使用

广播这个概念在不同的计算机领域中都有涉及,那么在Spark中,如果你想过滤掉一些特殊符号,在这样的情境中,就可以使用广播(不使用行不行?行!但消耗更多。)首先我们先上代码:

代码中,注意红框部分,我们使用广播过滤掉了一些特殊字符的统计。如果不适用广播,意味着list特殊字符集合中的所有信息都需要拷贝到所有的数据分区中,如果使用了广播,只需要将数据广播到指定的Executor中即可。

Spark中Maven项目的构建

在构建项目时,可以选择使用mvn命令构建,当然也可以使用IDEA的可视化界面构建,那么我们下面分别探讨两种方式:

方式一:环境-Linux(不推荐,当然也要看喜好)

方式二:环境-Windows(推荐)

Step1、打开IDEA工具,选择Create new project,选择Maven,点击Create from archetype,留意红框内容

Step2、Next后,不必解释过多了吧?如图:

Step3、选择你的Maven仓库地址,默认在.m2目录下,可以自己指定,稍后会自动下载相关依赖

Step4、Next后,编辑项目的一些基本信息,finish即可,如图:

Step5、打开pom.xml,配置一些后边课程我们可能会用到的依赖,剩下的目录配置等等,和之前的我们学过的一样

Step6、最后完成时,你会发现导入的jar包在左边的External Libraries中看到如下内容

最后,在刚创建好的Maven工程中写一个WordCount试试?:)

* 总结

学会这些基础操作后,可以进行更多的拓展,比如分析一下apache的日志?请参看官方完整案例。


IT全栈公众号:

QQ大数据技术交流群(广告勿入):476966007


下一节:SparkSQL基础

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349