16-SparkCore03

Spark on YARN

将spark作业提交到yarn上去执行

spark仅仅作业一个客户端

./spark-submit \

--class org.apache.spark.examples.SparkPi \

--master yarn \

/home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/jars/spark-examples_2.11-2.3.0.jar \

3

deploy-mode: client / cluster

yarn = yarn-client

yarn-cluster =

--queue

--num-executors

--executor-cores

--executor-memory

40-50s ==> 10-15s

client vs cluster

driver运行在哪里

client

am

SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://hadoop000:8020/directory -Dspark.history.ui.port=7777"

coalesce vs reparition

200        200    1条      200      200 

rdd1 -map-> rdd2 -filter--coalesce-> rddc --> save...

xxxx.coalesce(1)

map vs mapPartitions

foreach  vs foreachPartition

foreachPartition

只要涉及到输出的,用这个

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容