Centos7 环境下 Standalone Spark 安装配置

1. Spark简介

详细的spark框架功能和使用介绍，可参考SPARK官网文档

2. Centos7环境配置

阿里ECS，操作环境Centos7
jdk1.8.0_151 JDK下载地址
scala-2.10.6 SCALA下载地址
spark-2.2.1 SPARK下载地址

3. JDK安装

STEP1. 下载对应的JDK版本，下载地址

STEP2. 将下载好的JDK压缩包解压到/usr/lib/jvm:

tar -zvxf jdk-8u151-linux-x64.tar.gz -C /usr/lib/jvm

STEP3. 配置环境变量：

vim ~/.bashrc

STEP4. 添加如下声明：

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_144
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:$CLASSPATH
export PATH=${JAVA_HOME}/bin:$PATH

STEP5. 更新声明

source ~/.bashrc

STEP6. 测试是否成功

java -version

若出现以下信息，说明安装成功！

4. SCALA安装

由于scala基于jvm运行，在安装scala之前必须完成java安装。
STEP1. 下载对应版本的scala二进制安装包，点击链接

STEP2. 解压缩：

tar -zvxf scala-2.10.6.tgz -C /usr/local/src

STPE3. 配置环境变量：

vim ~/.bashrc

STEP4. 添加并更新声明：

export SCALA_HOME=/usr/local/src/scala-2.10.6/
export PATH=${SCALA_HOME}/bin:$PATH

source ~/.bashrc

STEP5. 测试是否安装成功

scala

如果出现以下信息，说明安装成功！

退出scala：
:quit

5. 安装SPARK

STEP1. 到官网下载对应版本的Spark，下载地址，这里选择版本spark-2.2.1-bin-hadoop2.7.tgz

STEP2. 压缩包解压：

tar -zvxf spark-2.2.1-bin-hadoop2.7.tgz -C /usr/local/src

STEP3. 修改环境变量并声明：
vim ~/.bashrc

添加以下变量：
export SPARK_HOME=$HOME/spark-2.2.1-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

更新环境变量：
source ~/.bashrc

STEP4. 配置SPARK：

修改SPARK配置文件：
cd $SPARK_HOME/conf
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
添加以下变量：
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_151
export SCALA_HOME=/usr/local/src/scala-2.10.6
export SPARK_HOME=/usr/local/src/spark-2.2.1-bin-hadoop2.7
export SPARK_MASTER_IP=localhost(or your ip address)
export SPARK_EXECUTOR_MEMORY=1G

6.启动SPARK

STEP1. 启动进程：
cd $SPARK_HOME
./sbin/start-all.sh
通过jps查看是否启动成功:
jps
若出现以下提示，说明启动成功

STEP2. 启动客户端：
./bin/spark-shell

若出现以下信息，恭喜！SPARK安装成功。

恭喜安装成功！！
关于pyspark 和 Jupyter notebook集成与远程访问，将在后续文章中更新。

最后编辑于：2018.01.17 15:16:09