1、spark-submit
[victor@node1 spark]$ bin/spark-submit \
> --class com.victor.spark.WordCount \
> --master spark://node1:7077 \ (--master local[*])//本地多线程执行
> --executor-memory 1G \
> --total-executor-cores 2 \
> wordcount.jar \
> hdfs://node1:9000/RELEASE \
> hdfs://node1:9000/RWC_out
2、参数解析
(1)--class 指定jar包中的主类
(2)--master 指定集群的地址
(3)--deploy-mode 可选,默认是client模式,注意client模式和cluster模式的区别
(4)--conf 指定配置属性
(5)指定jar包地址
(6)指定jar包的参数
3、提交的组件总结
1)Standalone模式
(1)Master:整个集群的管理器,负责分配资源,单独的JVM进程
(2)Worker:负责管理Executor,单独的JVM进程
(3)Driver:负责提交Jar包的客户端,
(4)client模式:Driver运行在提交端
(5)cluster模式:Driver运行在某一个Executor中。
(6)Executor:具体执行任务的容器,单独的JVM进行。
2)Yarn模式
(1)ResourceManager
(2)NodeManager
(3)我不用启动Spark集群