1、Standalone部署模式
1)节点
(1)Master:主节点
(2)Worker:任务节点
2)步骤
(1)下载Spark的安装包,注意选择相同版本的Hadoop编译包
(2)解压Spark的安装包
(3)修改Slaves文件,添加Worker的节点
(4)修改spark-env.sh 修改SPARK_MASTER_HOST SPARK_MASTER_PORT
(5)分发整个spark的包
(6)sbin/start-all.sh启动集群。 8080 7077
2、访问Spark集群
(1)通过bin/spark-shell --master spark://master01:7077
(2)通过bin/spark-submit提交jar包应用
3、访问应用的日志
(1)通过Running Application 4040 端口来访问(仅限于正在运行的应用)
(2)通过配置HistoryServer的方式来查看
4、配置HistoryServer
(1)配置spark-defaults.conf,指定event log的保存地址
(2)修改spark-env.sh 配置文件
(3)同步你所有的修改文件
(4)启动HDFS,并在HDFS中创建日志的目录
(5)启动你的集群,启动history-server
5、配置Spark的HA
1)启动Zookeeper
2)修改Spark-env.sh
------->(1)删除SPARK_MASTER_HOST
------->(2)添加zookeeper的配置
3)启动HA
------->(1)start-all.sh
------->(2)选择一台机器手动启动 sbin/start-master.sh
4)如何访问
(1)--master 修改成: spark://master01:7077,slave01:7077
6、配置Yarn集群 Spark
(1)yarn
(2)spark