翻译: https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_spark_installation.html
版本: 5.14.2
Continue reading:
Spark Packages
用来安装Spark 的 包 有:
- RPM packages
- Debian packages
Spark 有5个核心 packages:
- spark-core : 提供Spark的核心功能。
- spark-worker: 为spark-worker 初始化脚本 。
- spark-master: 为spark-master 初始化脚本 。
- spark-python : Spark的Python 客户端。
- spark-history-server
Spark Prerequisites
- CDH5支持的操作系统 ,参见 operating system supported by CDH 5.
- Oracle JDK
- hadoop-client 包 (参见Installing the Latest CDH 5 Release)
安装和升级Spark
注意: 安装Cloudera存储库
在使用本页面上的说明安装或升级之前:
- 安装Cloudera的 yum, zypper/YaST or apt 仓库。
- 安装或升级CDH 5并确保它正常工作。
有关说明,请参阅安装最新的CDH 5版本并使用命令行升级CDH。
要查看当前版本中的Spark版本,请检查CDH版本和封装信息。有关重要信息,请参阅CDH 5发行说明,特别是:
注意:如果您使用的是Cloudera Manager 5.9.0,5.9.1或5.10.0,并且具有NodeManager角色但没有Spark网关角色的主机,则必须将Spark网关角色添加到所有NodeManager主机,并重新部署客户机配置。
-
RHEL兼容系统:
- 要安装所有Spark程序包:
$ sudo yum install spark-core spark-master spark-worker spark-history-server spark-python
- 仅安装在YARN上运行Spark所需的包:
$ sudo yum install spark-core spark-history-server spark-python
您现在已准备好配置并启动Spark。请参阅使用命令行管理Spark Standalone。
注意:
如果你上传的Spark JAR文件中所述的Unmanaged
CDH部署优化YARN模式,使用相同的指令每次升级到CDH的新次要版本(例如,任何CDH 5.4时间上传文件的新版本, 包括5.4.0版本)。