16-SparkCore03

Spark on YARN

将spark作业提交到yarn上去执行

spark仅仅作业一个客户端

./spark-submit \

--class org.apache.spark.examples.SparkPi \

--master yarn \

/home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/jars/spark-examples_2.11-2.3.0.jar \

deploy-mode: client / cluster

yarn = yarn-client

yarn-cluster =

--queue

--num-executors

--executor-cores

--executor-memory

40-50s ==> 10-15s

client vs cluster

driver运行在哪里

client

SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://hadoop000:8020/directory -Dspark.history.ui.port=7777"

coalesce vs reparition

200 200 1条 200 200

rdd1 -map-> rdd2 -filter--coalesce-> rddc --> save...

xxxx.coalesce(1)

map vs mapPartitions

foreach vs foreachPartition

foreachPartition

只要涉及到输出的，用这个

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

赞赏

手机看全文