基于docker的Spark分布式搭建

docker spark


1.准备工作

三个 docker 容器,操作系统为:Ubuntu 14.04

ip 机器名称 集群节点 登录用户
17.172.192.108 Hadoop1 master/slave tank
17.172.192.123 Hadoop2 slave tank
17.172.192.124 Hadoop3 slave tank

2.安装jdk并配置环境变量

1)解压缩文件
tar -zxvf jdk-8u141-linux-x64.tar.gz /usr/local/java
2)配置环境变量
  • 打开 vi
sudo vi /etc/profile
  • 在打开的profile末尾添加环境变量
export JAVA_HOME=/usr/local/java/jdk.1.8.0_141
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=$PATH:${JAVA_HOME}/bin
  • 让文件生效
source /etc/profile
  • 验证 Java 环境配置
java -version

3.安装和配置Scala

1)下载Scala安装包
wget https://downloads.lightbend.com/scala/2.12.7/scala-2.12.7.tgz
2)解压
tar -zxvf scala-2.12.7.tgz
3)复制到/usr下面
docker mv scala-2.12.7 /usr
4)配置环境变量
vi /etc/profile
export SCALA_HOME=/usr/scala-2.12.7
export PATH=$SCALA_HOME/bin:$PATH
5)保存后刷新配置
source /etc/profile
6)验证是否配置成功
scala -version

4.配置SSH免密登录

1)生成ssh秘钥
ssh -keygen
2) 将秘钥导入authorized_keys,配置成免密码登录本地
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
3)测试免密码登录本机
ssh localhost

注:docker容器之间通信,不用防火墙

5.安装 Hadoop

1)解压缩下载之后的hadoop文件
tar -zxvf hadoop-2.7.3.tar.gz /usr/local/hadoop/
2) 配置core-site.xml
 <!-- 指定HDFS老大(namenode)的通信地址 -->
    <property>
            <name>fs.default.name</name>
            <value>hdfs://hadoop1:9000</value><!-- 主节点写localhost 从节点写hadoop1 -->
    </property>
    <property>
            <name>hadoop.tmp.dir</name>
            <value>/home/tank/hadoop/tmp</value>
    </property>
3)配置hdfs-site.xml
<configuration>
        <property> <!--此项非必须配-->
                <name>dfs.namenode.secondary.http-address</name>
                <value>master:50900</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>/home/tank/hadoop/hdfs/name</value>
        </property>  
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>/home/tank/hadoop/hdfs/data</value>
        </property>
        <property>
                <name>dfs.namenode.handler.count</name>
                <value>10</value><!--namenode通信线程数,太小会导致通信阻塞-->
        </property>
        <property>
                <name>dfs.datanode.du.reserved</name>
                <value>10737418240</value><!--硬盘保留空间,10G,单位字节-->
        </property>
</configuration>
4)配置mapred-site.xml
<configuration>
        <property>
            <name>mapred.child.java.opts</name><!--map或red的JVM堆大小,应<=mapreduce.*.memory.mb-->
            <value>-Xmx1000m</value>
    </property>
        <property>
            <name>mapreduce.map.memory.mb</name><!--map任务容器的内存大小-->
            <value>1024MB</value>
    </property>
        <property>
            <name>mapreduce.reduce.memory.mb</name><!--reduce任务容器的内存大小-->
            <value>1024MB</value>
    </property>
        <property>
            <name>mapreduce.job.reduce.slowstart.completedmaps</name><!--调度reduce之前map完成进度-->
            <value>0.5</value>
    </property>
        <property>
            <name>mapreduce.jobtracker.taskscheduler</name><!--任务调度算法,默认FIFO-->
            <value>org.apache.hadoop.mapred.JobQueueTaskScheduler</value>
    </property>
        <property>
            <name>mapreduce.map.maxattempts</name><!--map最大尝试次数-->
            <value>3</value>
    </property>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
    </property>
    <property>
            <name>mapreduce.jobhistory.address</name>
        <value>hadoop1:10020</value>
    </property>
    <property>
            <name>mapreduce.jobhistory.webapp.address</name>
            <value>hadoop1:19888</value>
    </property>
    <property>
            <name>mapred.job.tracker</name>
            <value>hadoop1:9001</value>
    </property>
</configuration>
5)配置yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>hadoop1</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>  <!-- 逗号分隔的辅助服务列表-->
        </property>
        <property>
                <name>yarn.nodemanager.resource.memory-mb</name>
                <value>8192</value>  <!-- 可分配给容器的物理内存总和-->
        </property>
        <property>
                <name>yarn.scheduler.minimum-allocation-mb</name>
                <value>1024</value>  <!-- 启动容器需要向资源管理器申请的最小内存量-->
        </property>
        <property>
                <name>yarn.scheduler.maxmum-allocation-mb</name>
                <value>8192</value>  <!-- 启动容器需要向资源管理器申请的最大内存量-->
        </property>
        <property>
            <name>yarn.log-aggregation-enable</name>    
        <value>true</value>    
       </property> 
</configuration>
6)修改hadoop-env.sh,配置jdk路径
export JAVA_HOME=/usr/local/java/jdk1.8.0_141
7)添加hadoop环境变量
sudo vi /etc/profile
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
export PATH=$PATH:${HADOOP_HOME}/bin
8)在集群所有节点进行前15步操作,并进行ssh互相免密码登录设置
  • 修改各个节点的/etc/hosts文件,添加
17.172.192.108 hadoop1
17.172.192.123 hadoop2
17.172.192.124 hadoop3
  • 将主节点的id_rsa.pub远程发送至所有叶子节点,命名为master.pub
rcp id_rsa.pub hadoop@hadoop2:~/.ssh/master.pub
rcp id_rsa.pub hadoop@hadoop3:~/.ssh/master.pu
  • 将主节点的master.pub追加到所有叶子节点的authorized_keys文件中,最终结果为主节点可以免密码登录到所有叶子节点
9)配置集群从节点

修改$HADOOP_HOME/etc/hadoop目录下的slaves文件,改为一下内容,代表三台机器都作为从节点参与任务

hadoop1
hadoop2
hadoop3
10)启动hadoop集群
cd $HADOOP_HOME
sbin/start-all.sh
11)查看集群运行状态
jps
NodeManager
Jps
NameNode
ResourceManager
SecondaryNameNode
DataNode
12)启动jobhistory进程
sbin/mr-jobhistory-daemon.sh start historyserver
jps
NodeManager
Jps
NameNode
ResourceManager
JobHistoryServer
SecondaryNameNode
DataNode
JobHistoryServer
//子节点上的进程
Jps
NodeManage
DataNode

6.Spark2.1.0完全分布式环境搭建

以下操作都在Master节点(Hadoop1)进行

1)下载二进制包spark-2.3.2-bin-hadoop2.7.tgz
2)解压并移动到相应目录,命令如下:
tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz
mv spark-2.3.2-bin-hadoop2.7.tgz /opt
3)修改相应的配置文件
  • /etc/profie
export SPARK_HOME=/opt/spark-2.3.2-bin-hadoop2.7/
export PATH=$PATH:$SPARK_HOME/bin
  • 复制spark-env.sh.template成spark-env.sh
cp spark-env.sh.template spark-env.sh
  • 修改$SPARK_HOME/conf/spark-env.sh,添加如下内容:
export JAVA_HOME=/usr/local/jdk1.8.0_141
export SCALA_HOME=/usr/scala-2.12.7
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.7.3/etc/hadoop
export SPARK_MASTER_IP=172.17.192.108
export SPARK_MASTER_HOST=172.17.192.108
export SPARK_LOCAL_IP=172.17.192.108
export SPARK_WORKER_MEMORY=1g
export SPARK_WORKER_CORES=2
export SPARK_HOME=/opt/spark-2.3.2-bin-hadoop2.7
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/hadoop-2.7.3/bin/hadoop classpath)
  • 复制slaves.template成slaves
cp slaves.template slaves
5)修改Slave1和Slave2配置

在Slave1和Slave2上分别修改/etc/profile,增加Spark的配置,过程同Master一样。
在Slave1和Slave2修改$SPARK_HOME/conf/spark-env.sh,将export > >SPARK_LOCAL_IP=172.17.192.108改成Slave1和Slave2对应节点的IP。

6)在Master节点启动集群
/opt/spark-2.3.2-bin-hadoop2.7/sbin/start-all.sh
7)查看集群是否启动成功
jps

Master在Hadoop的基础上新增了:
Master
Slave在Hadoop的基础上新增了:
Worker

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容