Docker搭建Hadoop集群

在学习Hadoop过程中,想要搭建Hadoop分布式集群,往往需要几台服务器或者再一台机器上搭建几台虚拟机;这两种方式搭建Hadoop集群都不是很方便,个人很少自己拥有几台服务器,或者电脑内存够大可以同时跑多个虚拟机。

Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。

自从了解了Docker之后,感觉这哥们就是搭建环境的神器,从此告别虚拟机,一些基础的服务如Redis、Mongo、MQ都可以通过容器来搞定。当然虚拟机也有虚拟机的优势。本文主要是对docker的简单应用,复杂虚拟化的东西不在本次讨论范围。
Docker容器技术可以很方便的构建Hadoop镜像,再根据Hadoop镜像同时创建多个Hadoop容器,从而非常容易的搭建Hadoop完全分布式集群环境。

一、创建部署Hadoop的基础环境

首先基于centos6.6的镜像创建一个基础linux服务环境,命令如下:

docker run -it --name hadoop-basenv -v /Users/lingy/Downloads/demo/docker/data:/home/lingy/data centos:6.6 /bin/bash

--name 会为容器指定名字,-v 会将本地文件夹挂载到容器的执行文件夹中,本文是/home/lingy/data

在创建好的容器中安装Hadoop相关基础环境,安装JDK、配置SSH免密登陆;由于容器是非常纯净的centos6.6所以很多软件都没有安装,需要安装一下。

安装Vim

执行 yum search vim 搜索vim相关软件,并安装vim-enhanced

yum install vim-enhanced
安装vim

安装SSH

免密登陆时需要用到ssh服务
同理搜索ssh yum search ssh 并安装openssh-server和openssh-clients

yum install openssh-server -y
yum install openssh-clients -y
安装SSH

安装Service

后边会通过service的方式启动ssh服务

yum install initscripts

安装JDK

从jdk官网现在rpm安装包jdk-8u161-linux-x64.rpm 放到本地文件夹/Users/lingy/Downloads/demo/docker/data下,由于创建容器时将此文件夹挂载到容器的/home/lingy/data下,所以在/home/lingy/data文件夹下可以找到jdk安装包,通过这种方式可以在宿主机和容器之间共享数据;为了避免不必要的麻烦,这里将安装包复制到另一个本地文件夹内,执行命令安装jdk。

rpm -ivh jdk-8u161-linux-x64.rpm
find / -name "rt.jar"

由于是默认安装所以执行find / -name "rt.jar"查找一下jdk的安装目录/usr/java/jdk1.8.0_161,方便之后配置环境变量使用

安装JDK

以上已经在linux的基础上完成了相关基础软件的安装,接下来将要配置环境、安装Hadoop,下面做基础配置

配置ssh免密登陆

Hadoop集群环境中,master启动的时候需要访问控制其他节点,不使用ssh免密登陆会很麻烦每次都需要登陆。所以通过ssh做免密登陆。
通过ssh-keygen生成公钥和私钥加密文件,再将公钥文件考入authorized_keys中

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

启动ssh服务,并通过ssh免密登陆本机,查看/etc/hosts查看本机host

service sshd start
ssh ab3661a64168(本地host)
SSH免密登陆

配置JDK环境变量

打开/etc/profile文件配置环境变量

JAVA_HOME=/usr/java/jdk1.8.0_161/
JRE_HOME=/usr/java/jdk1.8.0_161/jre

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin

export JAVA_HOME JRE_HOME CLASSPATH PATH

source /etc/profile 使环境变量立即生效,如下图:

配置JDK环境变量

二、安装Hadoop

到官网上下载Hadoop安装包,依然是放在本地目录共享文件夹下,本例中使用的是hadoop-2.7.3

安装并配置Hadoop

进入/usr/local文件夹创建一个hadoop文件夹,将下载好的hadoop-2.7.3.tar.gz解压,复制到hadoop文件加下

安装Hadoop

配置hadoop环境变量,编辑/etc/profile文件 vim /etc/profile 内容如下:

JAVA_HOME=/usr/java/jdk1.8.0_161/
JRE_HOME=/usr/java/jdk1.8.0_161/jre

HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3/
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export JAVA_HOME JRE_HOME CLASSPATH HADOOP_HOME PATH

修改环境变量之后需要使环境变量生效,执行source /etc/profile,之后执行hadoop,环境变量配置成功效果如下图:

Hadoop环境变量

hadoop环境变量配置成功之后,需要进入到hadoop_home同级目录下为hadoop创建几个工作目录。

cd /usr/local/hadoop/
mkdir tmp
mkdir -p hdfs/name
mkdir hdfs/data

如果在不存在的hdfs文件夹下边创建name文件夹会失败;这里使用-p参数,在创建name文件的时候会连同上级目录hdfs一起创建

修改Hadoop相关配置文件

要想真正的运行hadoop应用还需要修改hadoop运行参数;进入/usr/local/hadoop/hadoop-2.7.3/etc/hadoop文件夹,需要修改的可执行文件与配置文件包括:hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves。

修改hadoop-env.sh

vim hadoop-env.sh注释掉原有的配置export JAVA_HOME=${JAVA_HOME},修改成当前的JAVA_HOME export JAVA_HOME=/usr/java/jdk1.8.0_161/

hadoop-env.sh
修改yarn-env.sh

vim yarn-env.sh同样是重新指定JAVA_HOME export JAVA_HOME=/usr/java/jdk1.8.0_161/

yarn-env.sh
修改core-site.xml
<configuration>
        <property>
                <name> fs.default.name </name>
                <value>hdfs://master:9000</value>
        </property>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://master:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/usr/local/hadoop/tmp</value>
        </property>
</configuration>
修改hdfs-site.xml
<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/local/hadoop/hdfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/local/hadoop/hdfs/data</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
                <description>副本个数(每个本分割的文件会存储在几台datanode上,默认是3),这个数量应该小于datanode机器数</description>
        </property>
        <property>
                <name>dfs.permissions.enabled</name>
                <value>false</value>
        </property>
</configuration>
修改mapred-site.xml

在/usr/local/hadoop/hadoop-2.7.3/etc/hadoop目录下没有mapred-site.xml但是有一个文件mapred-site.xml.template;执行cp mapred-site.xml.template mapred-site.xml复制一个,修改内容如下:

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
                <description>mapreduce's framework is yarm</description>
        </property>
</configuration>
修改yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>master</value>
                <description>yarn resourcemanager hostname is master</description>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
                <description>just mapreduce_shuffle can run MapReduce</description>
        </property>
</configuration>
修改slaves

增加datanode节点的hostname

node1
node2
node3

以上就是完整的安装hadoop及修改hadoop配置,接下来我们会根据制作好的容器创建一个本地镜像,再根据这个镜像构建Hadoop分布式集群

基于当前容器提交一个镜像版本,并构建构建Hadoop分布式集群

docker ps查看目前运行的容器,找到我们刚刚制作好的容器hadoop-basenv的IDab3661a64168。通过hadoop-basenv制作一个新的镜像

docker commit ab3661a64168 lingy/hadoop-distributed-base

通过docker images可以看到我们新制作的镜像

hadoop-basenv
通过新的镜像lingy/hadoop-distributed-base构建Hadoop分布式集群

创建master(namenode节点)

docker run -it --name hadoop-master \
-p 50010:50010 \
-p 50020:50020 \
-p 50070:50070 \
-p 50075:50075 \
-p 50090:50090 \
-p 8020:8020 \
-p 9000:9000 \
-p 10020:10020 \
-p 8030:8030 \
-p 19888:19888 \
-p 8031:8031 \
-p 8032:8032 \
-p 8033:8033 \
-p 8040:8040 \
-p 8042:8042 \
-p 8088:8088 \
-p 49707:49707 \
-p 2122:2122 \
-v /Users/lingy/Downloads/demo/docker/data:/home/lingy/data \
-h master lingy/hadoop-distributed-base /bin/bash

创建node1(datanode节点),node2、node3同理,注意容器的名字--name hadoop-node1和host的名字-h node1

docker run -it --name hadoop-node1 \
-p 50010 \
-p 50020 \
-p 50070 \
-p 50075 \
-p 50090 \
-p 8020 \
-p 9000 \
-p 10020 \
-p 8030 \
-p 19888 \
-p 8031 \
-p 8032 \
-p 8033 \
-p 8040 \
-p 8042 \
-p 8088 \
-p 49707 \
-p 2122 \
-v /Users/lingy/Downloads/demo/docker/data:/home/lingy/data \
-h node1 lingy/hadoop-distributed-base /bin/bash

到这里分布式的hadoop集群环境已经准备好了,但是要真正运行,还需要做一些细微的设置,如下:

  1. 在master的hosts文件里配置node1~3的地址信息,在node节点hosts上配置master的地址信息。因为启动hadoop是,会访问node节点
  2. 如果是重启了docker容器,需要执行 source /etc/profile 来使hadoop环境变量生效
  3. 检查ssh服务是否启动,如果没启动需要执行service ssd start启动ssh服务

完成以上操作后在master上执行start-all.sh启动hadoop(==注:==如果是第一次启动hadoop,需要先执行hadoop namenode -format);停止hadoop执行stop-all.sh
启动成功之后分别在master和node节点上执行jps -l命令,如下图:

master
node

在地址栏上访问http://localhost:50070/

Overview

Datanodes
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容