翻译: https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_spark_configure.html
版本: 5.14.2
使用命令行管理Spark Standalone
重要提示:此项目已弃用,将在未来版本中删除。Cloudera支持在被移除之前弃用的项目。有关已弃用和已删除项目的更多信息,请参阅弃用项目。
(将在6.0版本移除)
本节介绍如何配置和启动Spark Standalone服务。
有关使用命令行安装Spark的信息,请参阅Spark安装。有关配置和启动Spark历史记录服务器的信息,请参阅使用命令行配置和运行Spark历史记录服务器。
有关Spark应用程序的信息,请参阅Spark应用程序概述。
配置Spark Standalone
在运行Spark Standalone之前,请在集群中的每台主机上执行以下操作:
- 编辑/etc/spark/conf/spark-env.sh并将最后一行的 hostname 更改为Spark Master将运行的主机的名称:
###
### === IMPORTANT ===
### Change the following to specify the Master host
###
export STANDALONE_SPARK_MASTER_HOST=`hostname`
- 可选的,编辑其他配置选项:
- SPARK_MASTER_PORT / SPARK_MASTER_WEBUI_PORT and SPARK_WORKER_PORT / SPARK_WORKER_WEBUI_POR,使用非默认端口
- SPARK_WORKER_CORES, 设置要在本机上使用的核心数量
- SPARK_WORKER_MEMORY, 设置要使用多少内存(例如:1000 MB,2 GB)
- SPARK_WORKER_INSTANCE, 设置每个节点的工作进程数量
- SPARK_WORKER_DIR, 设置工作进程的工作目录
启动和停止Spark Standalone 群集
要启动Spark Standalone群集:
- 在集群中的一台主机上,启动Spark Master:
$ sudo service spark-master start
您可以访问Spark Master UI spark_master:18080.。
- 在所有其他主机上,启动工作人员:
$ sudo service spark-worker start
要停止Spark,请在相应的主机上使用以下命令:
$ sudo service spark-worker stop
$ sudo service spark-master stop
服务日志存储在 /var/log/spark.