版本要求:我的版本是centos7操作系统,Hadoop-2.5.2,jdk1.8,scala2.11.8,spark2.1.0
搭建hadoop-2.5.2完全分布式集群
https://www.jianshu.com/p/8a6a9a4fec4a
安装jdk1.8和scala2.11.8
所有节点都要安装,且安装在同一目录下
https://www.jianshu.com/p/f035a836dda5
搭建yarn模式的完全分布式集群
在root用户下搭建
- 解压安装
~]# mkdir bigdata
~]# cd /home/xxx/bigdatazips 我的包路径
[root@master bigdatazips]# tar -zxvf spark-2.1.0-bin-without-hadoop.tgz -C /root/bigdata
~]# cd /root/bigdata
[root@master bigdata]# mv spark-2.1.0-bin-without-hadoop/ spark
- 配置环境变量
[root@master bigdata]# vim /etc/profile
vim编辑器中输入
export SPARK_HOME=/root/bigdata/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
保存退出,输入命令
[root@master spark]# source /etc/profile
使立刻生效
- Spark配置
-- 配置slaves文件
[root@master ~]# cd /root/bigdata/spark
[root@master spark]# ls
bin data jars licenses python README.md sbin
conf examples LICENSE NOTICE R RELEASE yarn
[root@master spark]# cd conf
[root@master conf]# ls
docker.properties.template slaves.template
fairscheduler.xml.template spark-defaults.conf.template
log4j.properties.template spark-env.sh.template
metrics.properties.template
[root@master conf]# cp slaves.template slaves
[root@master conf]# vim slaves
打开的文件中删除最后以行的localhost,写入
slave0
slave1
-- 配置spark-env.sh文件
export SPARK_DIST_CLASSPATH=$(/root/bigdata/hadoop/bin/hadoop classpath)
export HADOOP_CONF_DIR=/root/bigdata/hadoop/etc/hadoop
export SPARK_MASTER_IP=master
SPARK_DIST_CLASSPATH配置的是hadoop的bin目录
HADOOP_CONF_DIR配置的使hadoop的配置文件目录
SPARK_MASTER_IP配置的使master节点的ip
--将在master节点上配置好的spark复制到各个slave节点上
scp -r spark root@slave0:/root/bigdata/spark
scp -r spark root@slave1:/root/bigdata/spark
- 启动集群
-- 启动Hadoop集群
任意目录下运行命令
start-all.sh
-- 启动spark的master节点
任意目录下运行命令
start-master.sh
-- 启动spark的slaves节点
任意目录下运行命令
master-slaves.sh
-- 查看集群信息
master主机访问网址:http://master:8080