1spark执行流程

spark安装教程http://dblab.xmu.edu.cn/blog/install-hadoop/,问题解决https://www.cnblogs.com/woofwoof/p/10024104.html
Hadoop 2.7分布式集群环境搭建:http://dblab.xmu.edu.cn/blog/1177-2/
spark集群环境搭建:https://www.cnblogs.com/ZJdiem/p/11664634.html

1spark执行流程

执行应用,主节点中的driver节点向集群资源管理器申请资源,申请到资源后启动executeor进程,并且向executor进程发送代码和文件,然后应用程序在executor进程上派发出线程执行任务,最后执行结束后把执行结果返回给driver主控节点提交给用户,或者把他写入hdfs或者写入数据库。

1.1RDD特点

RDD是一个只读的高度受限的共享内存模型,只能在转换的过程当中才能修改,
RDD有两种操作类型,Action动作类型操作,Transformation转换类型操作,都是粗粒度的操作(一次针对rdd全集进行进行转换),不适合对数据库单条记录进行修改。

1.2RDD典型的执行过程

1.RDD读入外部数据源进行创建;
2.RDD经过一系列的转换(Transformation)操作,每一次都会产生不同的RDD供给下一个转换操作使用;
3.最后一个RDD经过动作操作进行转换并输出到外部数据源;
RDD是惰性调用机制,转换类型操作,只记录转换的轨迹,不进行计算;遇到动作操作类型才会进行计算
阶段划分依据:窄依赖(不包含shuffle操作),不划分阶段,一个父RDD分区对应一个子RDD分区或者多个父RDD分区对应一个子RDD分区;可以进行流水线优化
宽依赖(包含shuffle操作),划分成多个阶段,一个父RDD分区对应多个子RDD分区,不能进行流水线优化,宽依赖涉及shuffle操作,有数据的交换操作

1.3RDD运行过程

RDD-SparkContext-DAG图-由DAGScheduler划分生成阶段-任务集合-由TaskScheduler调用任务到WorkNode-Excutor进程-线程-执行任务
若需要使用HDFS中的文件,则在使用spark前需要启动hadoop

1.4pyspark常用参数及其命令

spark的运行模式取决于传递给SparkContext的Master url的值,Master url可以是以下任意一种形式
pyspark --master <master-url>
1.local使用一个Worker线程本地化运行spark(完全不并行)
2.local[]使用逻辑cpu个数数量的线程来本地化运行spark
3.local[K]使用k个Worker线程本地化运行spark(理想情况下,k应该根据运行机器的cpu核数设定)
4.spark://HOST:PORT连接到指定的spark standalone master,默认端口是7077
5.yarn-client 以客户端模式连接YARN集群,集群的位置可以在HADOOP_CONF_DIR环境变量中找到(用于开发环境及调试环境,如果只写yarn默认就是yarn-client)
6.yarn-cluster以集群模式连接YARN集群,集群的位置可以在HADOOP_CONF_DIR环境变量中找到(用于生产环境)
7.mesos://HOST:PORT连接到指定的Mesos集群,默认端口是5050
运行方式:pyspark --master local[
],pyspark --master spark://localhost:7077

1.5启动spark集群

# 启动hadoop集群
cd /usr/local/hadoop/
sbin/start-all.sh
# 启动spark集群
cd /usr/local/spark/
sbin/start-master.sh
sbin/start-slaves.sh

# 在集群中运行jar包
#--master spark://master:7077,master是主机名,如root或者其他,使用sudo vim /etc/hostname查看
cd /usr/local/spark/
bin/spark-submit \
--master spark://master:7077 \
/usr/local/spark/examples/src/main/python/pi.py 2>&1 | grep "Pi is roughly"

# 向hadoop yarn集群管理器提交应用
/home/glzt/software/spark/bin/spark-submit --master yarn-client /home/glzt/software/spark/examples/src/main/python/pi.py
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,277评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,689评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,624评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,356评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,402评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,292评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,135评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,992评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,429评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,636评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,785评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,492评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,092评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,723评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,858评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,891评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,713评论 2 354