基于docker的Spark分布式搭建

docker spark

1.准备工作

三个 docker 容器，操作系统为：Ubuntu 14.04

ip	机器名称	集群节点	登录用户
17.172.192.108	Hadoop1	master/slave	tank
17.172.192.123	Hadoop2	slave	tank
17.172.192.124	Hadoop3	slave	tank

2.安装jdk并配置环境变量

1）解压缩文件

tar -zxvf jdk-8u141-linux-x64.tar.gz /usr/local/java

2）配置环境变量

打开 vi

sudo vi /etc/profile

在打开的profile末尾添加环境变量

export JAVA_HOME=/usr/local/java/jdk.1.8.0_141
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=$PATH:${JAVA_HOME}/bin

让文件生效

source /etc/profile

验证 Java 环境配置

java -version

3.安装和配置Scala

1）下载Scala安装包

wget https://downloads.lightbend.com/scala/2.12.7/scala-2.12.7.tgz

2）解压

tar -zxvf scala-2.12.7.tgz

3）复制到/usr下面

docker mv scala-2.12.7 /usr

4）配置环境变量

vi /etc/profile

export SCALA_HOME=/usr/scala-2.12.7
export PATH=$SCALA_HOME/bin:$PATH

5）保存后刷新配置

source /etc/profile

6）验证是否配置成功

scala -version

4.配置SSH免密登录

1）生成ssh秘钥

ssh -keygen

2) 将秘钥导入authorized_keys，配置成免密码登录本地

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

3）测试免密码登录本机

ssh localhost

注：docker容器之间通信，不用防火墙

5.安装 Hadoop

1）解压缩下载之后的hadoop文件

tar -zxvf hadoop-2.7.3.tar.gz /usr/local/hadoop/

2）配置core-site.xml

 <!-- 指定HDFS老大（namenode）的通信地址 -->
    <property>
            <name>fs.default.name</name>
            <value>hdfs://hadoop1:9000</value><!-- 主节点写localhost 从节点写hadoop1 -->
    </property>
    <property>
            <name>hadoop.tmp.dir</name>
            <value>/home/tank/hadoop/tmp</value>
    </property>

3）配置hdfs-site.xml

<configuration>
        <property> <!--此项非必须配-->
                <name>dfs.namenode.secondary.http-address</name>
                <value>master:50900</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>/home/tank/hadoop/hdfs/name</value>
        </property>  
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>/home/tank/hadoop/hdfs/data</value>
        </property>
        <property>
                <name>dfs.namenode.handler.count</name>
                <value>10</value><!--namenode通信线程数，太小会导致通信阻塞-->
        </property>
        <property>
                <name>dfs.datanode.du.reserved</name>
                <value>10737418240</value><!--硬盘保留空间，10G，单位字节-->
        </property>
</configuration>

4）配置mapred-site.xml

<configuration>
        <property>
            <name>mapred.child.java.opts</name><!--map或red的JVM堆大小，应<=mapreduce.*.memory.mb-->
            <value>-Xmx1000m</value>
    </property>
        <property>
            <name>mapreduce.map.memory.mb</name><!--map任务容器的内存大小-->
            <value>1024MB</value>
    </property>
        <property>
            <name>mapreduce.reduce.memory.mb</name><!--reduce任务容器的内存大小-->
            <value>1024MB</value>
    </property>
        <property>
            <name>mapreduce.job.reduce.slowstart.completedmaps</name><!--调度reduce之前map完成进度-->
            <value>0.5</value>
    </property>
        <property>
            <name>mapreduce.jobtracker.taskscheduler</name><!--任务调度算法,默认FIFO-->
            <value>org.apache.hadoop.mapred.JobQueueTaskScheduler</value>
    </property>
        <property>
            <name>mapreduce.map.maxattempts</name><!--map最大尝试次数-->
            <value>3</value>
    </property>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
    </property>
    <property>
            <name>mapreduce.jobhistory.address</name>
        <value>hadoop1:10020</value>
    </property>
    <property>
            <name>mapreduce.jobhistory.webapp.address</name>
            <value>hadoop1:19888</value>
    </property>
    <property>
            <name>mapred.job.tracker</name>
            <value>hadoop1:9001</value>
    </property>
</configuration>

5）配置yarn-site.xml

<configuration>
<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>hadoop1</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>  <!-- 逗号分隔的辅助服务列表-->
        </property>
        <property>
                <name>yarn.nodemanager.resource.memory-mb</name>
                <value>8192</value>  <!-- 可分配给容器的物理内存总和-->
        </property>
        <property>
                <name>yarn.scheduler.minimum-allocation-mb</name>
                <value>1024</value>  <!-- 启动容器需要向资源管理器申请的最小内存量-->
        </property>
        <property>
                <name>yarn.scheduler.maxmum-allocation-mb</name>
                <value>8192</value>  <!-- 启动容器需要向资源管理器申请的最大内存量-->
        </property>
        <property>
            <name>yarn.log-aggregation-enable</name>    
        <value>true</value>    
       </property> 
</configuration>

6）修改hadoop-env.sh,配置jdk路径

export JAVA_HOME=/usr/local/java/jdk1.8.0_141

7）添加hadoop环境变量

sudo vi /etc/profile

export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
export PATH=$PATH:${HADOOP_HOME}/bin

8）在集群所有节点进行前15步操作,并进行ssh互相免密码登录设置

修改各个节点的/etc/hosts文件,添加

17.172.192.108 hadoop1
17.172.192.123 hadoop2
17.172.192.124 hadoop3

将主节点的id_rsa.pub远程发送至所有叶子节点,命名为master.pub

rcp id_rsa.pub hadoop@hadoop2：~/.ssh/master.pub
rcp id_rsa.pub hadoop@hadoop3：~/.ssh/master.pu

将主节点的master.pub追加到所有叶子节点的authorized_keys文件中，最终结果为主节点可以免密码登录到所有叶子节点

9）配置集群从节点

修改$HADOOP_HOME/etc/hadoop目录下的slaves文件，改为一下内容，代表三台机器都作为从节点参与任务

hadoop1
hadoop2
hadoop3

10）启动hadoop集群

cd $HADOOP_HOME
sbin/start-all.sh

11）查看集群运行状态

jps
NodeManager
Jps
NameNode
ResourceManager
SecondaryNameNode
DataNode

12）启动jobhistory进程

sbin/mr-jobhistory-daemon.sh start historyserver
jps
NodeManager
Jps
NameNode
ResourceManager
JobHistoryServer
SecondaryNameNode
DataNode
JobHistoryServer

//子节点上的进程
Jps
NodeManage
DataNode

6.Spark2.1.0完全分布式环境搭建

以下操作都在Master节点（Hadoop1）进行

1）下载二进制包spark-2.3.2-bin-hadoop2.7.tgz

2）解压并移动到相应目录，命令如下：

tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz
mv spark-2.3.2-bin-hadoop2.7.tgz /opt

3）修改相应的配置文件

/etc/profie

export SPARK_HOME=/opt/spark-2.3.2-bin-hadoop2.7/
export PATH=$PATH:$SPARK_HOME/bin

复制spark-env.sh.template成spark-env.sh

cp spark-env.sh.template spark-env.sh

修改$SPARK_HOME/conf/spark-env.sh，添加如下内容：

export JAVA_HOME=/usr/local/jdk1.8.0_141
export SCALA_HOME=/usr/scala-2.12.7
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.7.3/etc/hadoop
export SPARK_MASTER_IP=172.17.192.108
export SPARK_MASTER_HOST=172.17.192.108
export SPARK_LOCAL_IP=172.17.192.108
export SPARK_WORKER_MEMORY=1g
export SPARK_WORKER_CORES=2
export SPARK_HOME=/opt/spark-2.3.2-bin-hadoop2.7
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/hadoop-2.7.3/bin/hadoop classpath)

复制slaves.template成slaves

cp slaves.template slaves

5）修改Slave1和Slave2配置

在Slave1和Slave2上分别修改/etc/profile，增加Spark的配置，过程同Master一样。
在Slave1和Slave2修改$SPARK_HOME/conf/spark-env.sh，将export > >SPARK_LOCAL_IP=172.17.192.108改成Slave1和Slave2对应节点的IP。

6）在Master节点启动集群

/opt/spark-2.3.2-bin-hadoop2.7/sbin/start-all.sh

7）查看集群是否启动成功

jps

Master在Hadoop的基础上新增了：
Master
Slave在Hadoop的基础上新增了：
Worker

基于docker的Spark分布式搭建

1.准备工作

2.安装jdk并配置环境变量

1）解压缩文件

2）配置环境变量

3.安装和配置Scala

1）下载Scala安装包

2）解压

3）复制到/usr下面

4）配置环境变量

5）保存后刷新配置

6）验证是否配置成功

4.配置SSH免密登录

1）生成ssh秘钥

2) 将秘钥导入authorized_keys，配置成免密码登录本地

3）测试免密码登录本机

5.安装 Hadoop

1）解压缩下载之后的hadoop文件

2） 配置core-site.xml

3）配置hdfs-site.xml

4）配置mapred-site.xml

5）配置yarn-site.xml

6）修改hadoop-env.sh,配置jdk路径

7）添加hadoop环境变量

8）在集群所有节点进行前15步操作,并进行ssh互相免密码登录设置

9）配置集群从节点

10）启动hadoop集群

11）查看集群运行状态

12）启动jobhistory进程

6.Spark2.1.0完全分布式环境搭建

1）下载二进制包spark-2.3.2-bin-hadoop2.7.tgz

2）解压并移动到相应目录，命令如下：

3）修改相应的配置文件

5）修改Slave1和Slave2配置

6）在Master节点启动集群

7）查看集群是否启动成功

推荐阅读更多精彩内容

2）配置core-site.xml