在学习Hadoop过程中,想要搭建Hadoop分布式集群,往往需要几台服务器或者再一台机器上搭建几台虚拟机;这两种方式搭建Hadoop集群都不是很方便,个人很少自己拥有几台服务器,或者电脑内存够大可以同时跑多个虚拟机。
Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。
自从了解了Docker之后,感觉这哥们就是搭建环境的神器,从此告别虚拟机,一些基础的服务如Redis、Mongo、MQ都可以通过容器来搞定。当然虚拟机也有虚拟机的优势。本文主要是对docker的简单应用,复杂虚拟化的东西不在本次讨论范围。
Docker容器技术可以很方便的构建Hadoop镜像,再根据Hadoop镜像同时创建多个Hadoop容器,从而非常容易的搭建Hadoop完全分布式集群环境。
一、创建部署Hadoop的基础环境
首先基于centos6.6的镜像创建一个基础linux服务环境,命令如下:
docker run -it --name hadoop-basenv -v /Users/lingy/Downloads/demo/docker/data:/home/lingy/data centos:6.6 /bin/bash
--name
会为容器指定名字,-v
会将本地文件夹挂载到容器的执行文件夹中,本文是/home/lingy/data
在创建好的容器中安装Hadoop相关基础环境,安装JDK、配置SSH免密登陆;由于容器是非常纯净的centos6.6所以很多软件都没有安装,需要安装一下。
安装Vim
执行 yum search vim
搜索vim相关软件,并安装vim-enhanced
yum install vim-enhanced
安装SSH
免密登陆时需要用到ssh服务
同理搜索ssh yum search ssh
并安装openssh-server和openssh-clients
yum install openssh-server -y
yum install openssh-clients -y
安装Service
后边会通过service的方式启动ssh服务
yum install initscripts
安装JDK
从jdk官网现在rpm安装包jdk-8u161-linux-x64.rpm 放到本地文件夹/Users/lingy/Downloads/demo/docker/data下,由于创建容器时将此文件夹挂载到容器的/home/lingy/data下,所以在/home/lingy/data文件夹下可以找到jdk安装包,通过这种方式可以在宿主机和容器之间共享数据;为了避免不必要的麻烦,这里将安装包复制到另一个本地文件夹内,执行命令安装jdk。
rpm -ivh jdk-8u161-linux-x64.rpm
find / -name "rt.jar"
由于是默认安装所以执行find / -name "rt.jar"
查找一下jdk的安装目录/usr/java/jdk1.8.0_161,方便之后配置环境变量使用
以上已经在linux的基础上完成了相关基础软件的安装,接下来将要配置环境、安装Hadoop,下面做基础配置
配置ssh免密登陆
Hadoop集群环境中,master启动的时候需要访问控制其他节点,不使用ssh免密登陆会很麻烦每次都需要登陆。所以通过ssh做免密登陆。
通过ssh-keygen生成公钥和私钥加密文件,再将公钥文件考入authorized_keys中
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
启动ssh服务,并通过ssh免密登陆本机,查看/etc/hosts查看本机host
service sshd start
ssh ab3661a64168(本地host)
配置JDK环境变量
打开/etc/profile文件配置环境变量
JAVA_HOME=/usr/java/jdk1.8.0_161/
JRE_HOME=/usr/java/jdk1.8.0_161/jre
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin
export JAVA_HOME JRE_HOME CLASSPATH PATH
source /etc/profile
使环境变量立即生效,如下图:
二、安装Hadoop
到官网上下载Hadoop安装包,依然是放在本地目录共享文件夹下,本例中使用的是hadoop-2.7.3
安装并配置Hadoop
进入/usr/local文件夹创建一个hadoop文件夹,将下载好的hadoop-2.7.3.tar.gz解压,复制到hadoop文件加下
配置hadoop环境变量,编辑/etc/profile文件 vim /etc/profile
内容如下:
JAVA_HOME=/usr/java/jdk1.8.0_161/
JRE_HOME=/usr/java/jdk1.8.0_161/jre
HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3/
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME JRE_HOME CLASSPATH HADOOP_HOME PATH
修改环境变量之后需要使环境变量生效,执行source /etc/profile
,之后执行hadoop,环境变量配置成功效果如下图:
hadoop环境变量配置成功之后,需要进入到hadoop_home同级目录下为hadoop创建几个工作目录。
cd /usr/local/hadoop/
mkdir tmp
mkdir -p hdfs/name
mkdir hdfs/data
如果在不存在的hdfs文件夹下边创建name文件夹会失败;这里使用-p参数,在创建name文件的时候会连同上级目录hdfs一起创建
修改Hadoop相关配置文件
要想真正的运行hadoop应用还需要修改hadoop运行参数;进入/usr/local/hadoop/hadoop-2.7.3/etc/hadoop文件夹,需要修改的可执行文件与配置文件包括:hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves。
修改hadoop-env.sh
vim hadoop-env.sh
注释掉原有的配置export JAVA_HOME=${JAVA_HOME},修改成当前的JAVA_HOME export JAVA_HOME=/usr/java/jdk1.8.0_161/
修改yarn-env.sh
vim yarn-env.sh
同样是重新指定JAVA_HOME export JAVA_HOME=/usr/java/jdk1.8.0_161/
修改core-site.xml
<configuration>
<property>
<name> fs.default.name </name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
修改hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/hdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/hdfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
<description>副本个数(每个本分割的文件会存储在几台datanode上,默认是3),这个数量应该小于datanode机器数</description>
</property>
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
</configuration>
修改mapred-site.xml
在/usr/local/hadoop/hadoop-2.7.3/etc/hadoop目录下没有mapred-site.xml但是有一个文件mapred-site.xml.template;执行cp mapred-site.xml.template mapred-site.xml
复制一个,修改内容如下:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<description>mapreduce's framework is yarm</description>
</property>
</configuration>
修改yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
<description>yarn resourcemanager hostname is master</description>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
<description>just mapreduce_shuffle can run MapReduce</description>
</property>
</configuration>
修改slaves
增加datanode节点的hostname
node1
node2
node3
以上就是完整的安装hadoop及修改hadoop配置,接下来我们会根据制作好的容器创建一个本地镜像,再根据这个镜像构建Hadoop分布式集群
基于当前容器提交一个镜像版本,并构建构建Hadoop分布式集群
docker ps
查看目前运行的容器,找到我们刚刚制作好的容器hadoop-basenv的IDab3661a64168。通过hadoop-basenv制作一个新的镜像
docker commit ab3661a64168 lingy/hadoop-distributed-base
通过docker images可以看到我们新制作的镜像
通过新的镜像lingy/hadoop-distributed-base构建Hadoop分布式集群
创建master(namenode节点)
docker run -it --name hadoop-master \
-p 50010:50010 \
-p 50020:50020 \
-p 50070:50070 \
-p 50075:50075 \
-p 50090:50090 \
-p 8020:8020 \
-p 9000:9000 \
-p 10020:10020 \
-p 8030:8030 \
-p 19888:19888 \
-p 8031:8031 \
-p 8032:8032 \
-p 8033:8033 \
-p 8040:8040 \
-p 8042:8042 \
-p 8088:8088 \
-p 49707:49707 \
-p 2122:2122 \
-v /Users/lingy/Downloads/demo/docker/data:/home/lingy/data \
-h master lingy/hadoop-distributed-base /bin/bash
创建node1(datanode节点),node2、node3同理,注意容器的名字--name hadoop-node1和host的名字-h node1
docker run -it --name hadoop-node1 \
-p 50010 \
-p 50020 \
-p 50070 \
-p 50075 \
-p 50090 \
-p 8020 \
-p 9000 \
-p 10020 \
-p 8030 \
-p 19888 \
-p 8031 \
-p 8032 \
-p 8033 \
-p 8040 \
-p 8042 \
-p 8088 \
-p 49707 \
-p 2122 \
-v /Users/lingy/Downloads/demo/docker/data:/home/lingy/data \
-h node1 lingy/hadoop-distributed-base /bin/bash
到这里分布式的hadoop集群环境已经准备好了,但是要真正运行,还需要做一些细微的设置,如下:
- 在master的hosts文件里配置node1~3的地址信息,在node节点hosts上配置master的地址信息。因为启动hadoop是,会访问node节点
- 如果是重启了docker容器,需要执行
source /etc/profile
来使hadoop环境变量生效 - 检查ssh服务是否启动,如果没启动需要执行
service ssd start
启动ssh服务
完成以上操作后在master上执行start-all.sh
启动hadoop(==注:==如果是第一次启动hadoop,需要先执行hadoop namenode -format
);停止hadoop执行stop-all.sh
启动成功之后分别在master和node节点上执行jps -l
命令,如下图:
在地址栏上访问http://localhost:50070/