1. Spark简介
详细的spark框架功能和使用介绍,可参考SPARK官网文档
2. Centos7环境配置
3. JDK安装
STEP1. 下载对应的JDK版本,下载地址
STEP2. 将下载好的JDK压缩包解压到/usr/lib/jvm:
tar -zvxf jdk-8u151-linux-x64.tar.gz -C /usr/lib/jvm
STEP3. 配置环境变量:
vim ~/.bashrc
STEP4. 添加如下声明:
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_144
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:$CLASSPATH
export PATH=${JAVA_HOME}/bin:$PATH
STEP5. 更新声明
source ~/.bashrc
STEP6. 测试是否成功
java -version
若出现以下信息,说明安装成功!
4. SCALA安装
由于scala基于jvm运行,在安装scala之前必须完成java安装。
STEP1. 下载对应版本的scala二进制安装包,点击链接
STEP2. 解压缩:
tar -zvxf scala-2.10.6.tgz -C /usr/local/src
STPE3. 配置环境变量:
vim ~/.bashrc
STEP4. 添加并更新声明:
export SCALA_HOME=/usr/local/src/scala-2.10.6/
export PATH=${SCALA_HOME}/bin:$PATH
source ~/.bashrc
STEP5. 测试是否安装成功
scala
如果出现以下信息,说明安装成功!
退出scala:
:quit
5. 安装SPARK
STEP1. 到官网下载对应版本的Spark,下载地址,这里选择版本spark-2.2.1-bin-hadoop2.7.tgz
STEP2. 压缩包解压:
tar -zvxf spark-2.2.1-bin-hadoop2.7.tgz -C /usr/local/src
STEP3. 修改环境变量并声明:
vim ~/.bashrc
添加以下变量:
export SPARK_HOME=$HOME/spark-2.2.1-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
更新环境变量:
source ~/.bashrc
STEP4. 配置SPARK:
修改SPARK配置文件:
cd $SPARK_HOME/conf
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
添加以下变量:
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_151
export SCALA_HOME=/usr/local/src/scala-2.10.6
export SPARK_HOME=/usr/local/src/spark-2.2.1-bin-hadoop2.7
export SPARK_MASTER_IP=localhost(or your ip address)
export SPARK_EXECUTOR_MEMORY=1G
6.启动SPARK
STEP1. 启动进程:
cd $SPARK_HOME
./sbin/start-all.sh
通过jps查看是否启动成功:
jps
若出现以下提示,说明启动成功
STEP2. 启动客户端:
./bin/spark-shell
若出现以下信息,恭喜!SPARK安装成功。
恭喜安装成功!!
关于pyspark 和 Jupyter notebook集成与远程访问,将在后续文章中更新。