登录注册写文章

hadoop2.2+zookeeper+hbase安装详解

hadoop2.2+zookeeper+hbase安装详解

hadoop2集群搭建详解------------------------天津九安医疗电子--吴伟

一、需要软件

Jdk1.8.0_linux

Hadoop-2.2.0（Apache官网Stable版本）

Hbase-0.96.2（与Hadoop-2.2.0是配套的，不用覆盖jar包）

Zookeepr-3.4.5

# 集群结构图

IP地址

主机名

ZK

NN

DN

JN

HRS

HM

192.168.12.109

Master1

是

是

是

是

否

是

192.168.12.122

Master2

是

是（备）

是

是

否

是（备）

192.168.12.123

Slave1

是

否

是

是

是

否

192.168.12.126

Slave2

是

否

是

是

是

否

192.168.12.127

Slave3

是

否

是

是

是

否

192.168.12.129

Slave4

是

否

是

否

是

否

192.168.12.131

Slave5

是

否

是

否

是

否

二、基础配置

1、配置hosts文件，方便hadoop用主机名访问

vi /etc/hosts

2、设置ssh免密码登录

1）进入 ~ 根目录下的 .ssh 目录（没有的话，创建.ssh目录)

2）执行ssh-keygen -t rsa

3） ls 产生俩个文件(每台都要执行 )

id-rsa #私钥 id-rsa.pub #公钥

在每台服务器上将公钥复制到无需登录的服务器上，在每一台服务器上执ssh-copy-id的命令。

例如：

在192.168.12.109上执行

ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.12.122

ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.12.123

。。。。。

验证：

ssh slave1

3、关闭防火墙（centos 7）

systemctl stop firewalld.service #停止firewall

systemctl disable firewalld.service #禁止firewall开机启动

4、安装jdk

1)设置环境变量 vi /etc/profile

增加 export JAVA_HOME=/usr/local/jdk

export HBASE_HOME=/usr/local/hbase

export HADOOP_HOME=/usr/local/hadoop

export ZOOKEEPER_HOME=/usr/local/zk

export

PATH=$PATH:$HBASE_HOME/bin:$HIVE_HOME/bin:$HADOOP_HOME/bin:

2)立即生效 source profile

三、zookeeper安装

1. zk服务器集群规模不小于3个节点（必须是奇数个），要求各服务器之间系统时间要保持一致。

2. 在节点的/usr/local目录下，解压缩tar -zxvf ###。

3. 设置环境变量 vi /etc/profile 增加ZOOKEEPER_HOME=~~~

立即生效

Source /etc/profile

4. 在zk/conf目录下，重命名文件 mv zoo_sample.cfg zoo.cfg

编辑该文件，执行vi zoo.cfg

修改dataDir=/usr/local/zk/data ------------------存放数据目录

新增：zk节点=对应的hadoop节点

Server.1=master1:2888:3888

（一个是通信端口，一个是选举端口）

Server.2=master2:2888:3888

Server.3=slave1:2888:3888

。。。。。。

5 创建文件夹存放数据目录mkdir /usr/local/zk/data

6 在data目录下，创建文件myid，值为1

7 把zk目录复制到其他节点

8 把其他节点中相应的myid的值改为2

9 启动:

在三个节点上分别执行命令(在zk/bin下执行)zkServer.sh start

执行后bin下多了zookeeper.out(日志)

10 检验，在三个节点上分别执行命令zkServer.sh status (leader或者follower)

时间同步

# yum install -y ntp #安装ntp服务

# ntpdate cn.pool.ntp.org #同步网络时间

四、hadoop2.2安装

# 修改7个配置文件

~/hadoop-2.2.0/etc/hadoop/hadoop-env.sh

~/hadoop-2.2.0/etc/hadoop/core-site.xml

~/hadoop-2.2.0/etc/hadoop/hdfs-site.xml

~/hadoop-2.2.0/etc/hadoop/mapred-site.xml

~/hadoop-2.2.0/etc/hadoop/yarn-env.sh

~/hadoop-2.2.0/etc/hadoop/yarn-site.xml

~/hadoop-2.2.0/etc/hadoop/slaves

# 1修改hadoop-env.sh配置文件（jdk 路径）

exportJAVA_HOME=/usr/local/jdk

# 2修改core-site.xml文件修改

<configuration>

<property>

<name>fs.defaultFS</name>

<value> hdfs://mycluster </value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/usr/local/hadoop/tmp</value>

</property>【这里的路径默认是NameNode、DataNode、JournalNode等存放数据的公共目录。用户也可以自己单独指定这三类节点的目录。】

<property>

<name>dfs.nameservices</name>

<value>mycluster</value>

</property>

【NameService实际就是HDFS集群的别名。使用federation时，可使用了多个HDFS集群。】

<property>

<name>ha.zookeeper.quorum</name>

<value>master1:2181,master2:2181,slave1:2181,slave2:2181,slave3:2181,slave4:2181,slave5:2181</value>

</property>

【这里是ZooKeeper集群的地址和端口。注意，数量一定是奇数，且不少于三个节点】

</configuration>

# 3修改hdfs-site.xml配置文件

<configuration>

<property>

<name>dfs.nameservices</name>

<value> mycluster </value>

</property>

<property>

<name>dfs.ha.namenodes.mycluster</name>

<value>master1,master2</value>

</property>

【指定NameService是mycluster时的namenode有哪些】

<property>

<name>dfs.namenode.rpc-address.mycluster.master1</name>

<value>master1:9000</value>

</property>

【指定master1的RPC地址】

<property>

<name>dfs.namenode.rpc-address.mycluster.master2</name>

<value>master2:9000</value>

</property>

【指定master2的RPC地址】

<property>

<name>dfs.namenode.http-address.mycluster.master1</name>

<value>master1:50070</value>

</property>

【指定master1的http地址】

<property>

<name>dfs.namenode.http-address.mycluster.master2</name>

<value>master2:50070</value>

</property>

【指定master2的http地址】

<property>

<name>dfs.namenode.shared.edits.dir</name>

<value>qjournal://master1:8485;master2:8485;slave1:8485;slave2:8485;slave3:8485/mycluster</value>

</property>

【指定mycluster的两个NameNode共享edits文件目录时，使用的JournalNode集群信息】

<property>

<name>dfs.ha.automatic-failover.enabled.mycluster</name>

<value>true</value>

</property>

【指定mycluster是否启动自动故障恢复，即当NameNode出故障时，是否自动切换到另一台NameNode】

<property>

<name>dfs.client.failover.proxy.provider.mycluster</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

【指定mycluster出故障时，哪个实现类负责执行故障切换】

<property>

<name>dfs.ha.fencing.methods</name>

<value>sshfence</value>

</property>

【一旦需要NameNode切换，使用ssh方式进行操作】

<property>

<name>dfs.ha.fencing.ssh.private-key-files</name>

<value>/root/.ssh/id_rsa</value>

</property>

【如果使用ssh进行故障切换，使用ssh通信时用的密钥存储的位置】

<property>

<name>dfs.journalnode.edits.dir</name>

<value>/usr/local/hadoop/tmp/journal</value>

</property>

<property>

<name>dfs.replication</name>

<value>3</value>

</property>

【指定DataNode存储block的副本数量。默认值是3个，我们现在有7个DataNode，该值不大于7即可。】

<property>

<name>dfs.webhdfs.enabled</name>

<value>true</value>

</property>

</configuration>

# 4修改 mapred¬-site.xml配置文件

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

【指定运行mapreduce的环境是yarn，与hadoop1截然不同的地方】

</configuration>

# 5修改yarn-env.sh配置文件

exportJAVA_HOME=/usr/local/jdk

【这里的JAVA_HOME的值是jdk的安装路径】

# 6修改yarn-site.xml配置文件

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>master1</value>

</property>

【自定ResourceManager的地址，还是单点，这是隐患】

</configuration>

# 7修改slaves配置文件

master1

master2

slave1

slave2

slave3

slave4

slave5

【指定所有的DataNode节点列表，每行一个节点名称】

五、启动集群

1、启动Zookeeper集群

在usr/local/zk/bin 目录下

执行启动命令：zkServer.sh start

# 验证Zookeeper是否启动成功1

查看状态命令：zkServer.sh status

在 master1上查看 zookeeper 的状态发现是 leader

在其他的机器上查看 zookeeper 的状态发现是 follower

#验证Zookeeper是否启动成功2

在usr/local/zk/bin 目录下

执行进入命令行命令：

zkCli.sh

Connecting to localhost:2181

[zk: localhost:2181(CONNECTED) 0] ls /

[zookeeper]

[zk: localhost:2181(CONNECTED) 1]

出现这样的提示的话，那么 zookeeper 就启动成功了

2、格式化ZooKeeper集群，目的是在ZooKeeper集群上建立HA的相应节点。

在usr/local/hadoop/bin 目录下

执行命令： hdfs zkfc -formatZK

# 验证zkfc是否格式化成功

进入客户端 zkCli.sh

[zk: localhost:2181(CONNECTED) 1] ls /hadoop-ha

[mycluster]

【格式化操作的目的是在ZK集群中建立一个节点，用于保存集群c1中NameNode的状态数据】

3、完全分布式启动Hadoop（切记顺序不能乱）

# 在 master1,master2,slave1,slave2,slave3上分别启动 journalnode

[root@master1sbin]# ./hadoop-daemon.sh start journalnode

# 在master1，master2上分别格式化和启动namenode

从 master1和 master2中任选一个即可，这里选择的是 master1

[root@master1sbin]# ../bin/hdfs namenode –format

[root@master1sbin]# ./hadoop-daemon.sh start namenode

# 将master1上namenode的数据同步到master2中去，需要在master2上执行hadoop的命令

[root@rs227 sbin]# ../bin/hdfs namenode -bootstrapStandby

[root@rs227 sbin]# ./hadoop-daemon.sh start namenode

# 打开浏览器，访问master1跟master2的50070端口

如果都能访问到，说明你 namenode 启动成功了，并且这两个 namenode 都是 standby 状态

# namenode （ master1）转换成 active （这里不需要手动将 namenode 转换为 active 状态了，因为我们是交给 Zookeeper 管理，在后面会启动 ZooKeeperFailoverController ）

# 启动所有的 datanodes（在master1上执行命令）

[root@master1sbin]# ./hadoop-daemons.sh start datanode

[root@master1sbin]# jps

25627 Jps

24037 NameNode

25168 DataNode

23343 JournalNode

29367 QuorumPeerMain

# 实验一下手动切换 namenode 的状态（这里也不需要做， Zookeeper 管理的，自动切换，下面会讲到）

# yarn启动

[root@master1sbin]# ./start-yarn.sh

starting yarn daemons

# 访问master1的8088端口查看ResourceManager的UI界面

# 启动ZooKeeperFailoverController

#在master1上执行命令

[root@master1sbin]# ./hadoop-daemon.sh start zkfc

#在master2上执行命令

[root@master2 sbin]# ./hadoop-daemon.sh start zkfc

# 打开浏览器，再访问master1跟master2的50070端口

发现 master1变成 active 状态了，而 master2还是 standby 状态

# 验证HDFS是否好用

[root@master1sbin]# ../bin/hadoop fs -putyarn-daemon.sh /yting

[root@master1sbin]# ../bin/hadoop fs -ls /yting

Found 1 items

-rw-r--r-- 3root supergroup 4278 2014-06-1018:29 /yting/yarn-daemon.sh

# 验证YARN是否好用

[root@master1bin]# pwd

/usr/local/adsit/yting/apache/hadoop/hadoop-2.2.0/bin

[root@master1bin]# ./hadoop jar../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar pi 10 100

…( 不重要的部分就省略了，能出这个值就是对的，虚拟机可能会卡着不动，也可能会卡死，属于正常现象，内存消耗比较大 )

Job Finished in 25.361 seconds

valueof Pi is 3.14800000000000000000

# 验证HA高可用性，是否自动故障转移

在master1节点active namenode上执行 jps ，确定namenode进程，kill 将其杀掉，之后刷新页面我们发现master2节点（原standy）自动变成了 active namenode。

六、安装hbase

按照上图下载正确的hbase版本（版本问题很重要，是很多错误的根源）

# Hbase-0.96.2-hadoop2（启动双HMaster的配置，master1是主HMaster，master2是从HMaster）

# 解压Hbase-0.96.2-hadoop2-bin.tar.gz

tar -zxvfhbase-0.96.2-hadoop2-bin.tar.gz

# 修改hbase-env.sh 文件

[root@master conf]# vi hbase-env.sh

export JAVA_HOME=/usr/local/jdk

export HBASE_MANAGES_ZK=false

# 配置hbase-site.xml 文件

<configuration>

<property>

<name>hbase.rootdir</name>

<value>hdfs://mycluster/hbase</value>

</property>

<property>

<name>hbase.cluster.distributed</name>

<value>true</value>

</property>

<property>

<name>hbase.tmp.dir</name>

<value>/usr/local/hbase/tmp</value>

</property>

<property>

<name>hbase.master</name>

<value>60000</value> # 这里是对的，只配置端口，为了配置多个 HMaster

</property>

<property>

<name>hbase.zookeeper.quorum</name>

<value>master1,master2,slave1,slave2,slave3,slave4,slave5</value>

</property>

<property>

<name>hbase.zookeeper.property.clientPort</name>

<value>2181</value>

</property>

<property>

<name>hbase.zookeeper.property.dataDir</name>

<value>/usr/local/zookeeper/data</value>

</property>

</configuration>

# 配置regionservers

[root@master1conf]# vi regionservers

slave1

slave2

slave3

slave4

slave5

# 创建hdfs-site.xml的软连接

[root@master1conf]# ln /usr/local/hadoop/etc/hadoop/hdfs-site.xml hdfs-site.xml

# 启动hbase

[root@master1hbase-0.96.2-hadoop2]# ./bin/start-hbase.sh

[root@master1hbase-0.96.2-hadoop2]# jps

5131 Jps

4827 HRegionServer

4661 HMaster

6395 NodeManager

6272 DataNode

29849 QuorumPeerMain

# hbase shell 验证 1（查看hbase的版本跟状态）

hbase(main):003:0> list # 刚刚创建的表

hbase(main):004:0> version

0.96.2-hadoop2, r1581096, Mon Mar 24 16:03:18 PDT2014

hbase(main):005:0> status

5 servers, 0 dead, 0.8000 average load

# hbase shell 验证 2（建表插入数据获取数据实时）

hbase(main):006:0> create'test','id','info'

0 row(s) in 0.4706 seconds

=> Hbase::Table - test

hbase(main):007:0> put'test','1314520','info:yousmile','forever’

hbase(main):008:0> get 'test,'1314520'

hbase(main):009:0> scan 'test'

# 在master2上启动HMaster

[root@master2 bin]# ./hbase-daemon.sh start master

# 验证HMaster自动切换

# rs227上的日志查看

2014-07-03 15:43:47,798 INFO [master:rs227:60000] mortbay.log: StartedSelectChannelConnector@0.0.0.0:60010

2014-07-03 15:43:47,897 INFO [master:rs22760000]zookeeper.RecoverableZooKeeper: Node /hbase/master already exists and this isnot a retry

2014-07-03 15:43:47,898 INFO [master:rs227:60000]master.ActiveMasterManager: Adding ZNode for/hbase/backup-masters/rs227,60000,1402645426368 in backup master directory

2014-07-03 15:43:47,908 INFO [master:master2:60000] master.ActiveMasterManager:Another master is the active master, rs229,60000,1402645371520; waiting tobecome the next active master

这里说明zookeeper已经接管了，并且把master2作为一个备份的Hbase了，并且这里提示

waiting to become thenext active master （等待变成下一个活动的master），然后我们可以将master1上的hmaster进程给kill掉，当然，也可以使用 ./hbase-daemon.shstop master 来结束master1上的hmaster进程

只看红色标注的地方，意思就是说当我们 kill 掉 master1上的 hmaster 的时候， Nomaster available. Notifying waiting threads . A master is now available （找不到 master，唤醒等待的 hmaster 线程（认识 96 ），然后找到了等待的 hmaster （ master2）），然后 zookeeper 就接管并且将 master2上的 hmaster 从等待状态切换为激活状态了，然后就 ok 了。（当然也可以多开几个备用的 hmaster ）

最后编辑于：2017.11.27 02:22:57

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

HBase Getting Started（入门指南）
入门指南 1. 简介 Quickstart会让你启动和运行一个单节点单机HBase。 2. 快速启动 – 单点HB...
和心数据阅读 10,301评论 1赞 41
Hbase介绍三(配置文件详解)
该文档是用Hbase默认配置文件生成的，文件源是Hbase-default.xml hbase.rootdir 这...
我是嘻哈大哥阅读 10,226评论 0赞 7

Hadoop、HBase、Hive、Spark分布式系统架构
Hadoop、HBase、Hive、Spark分布式系统架构，本文通过全套部署方法来让大家深入系统内部以充分理解...
0o失魂鱼o0阅读 7,969评论 0赞 30
快速的部署Hadoop,Hbase和Hive
之前的有点忘记了,这里在云笔记拿出来再玩玩.看不懂的可以留言大家可以尝试下Ambari来配置Hadoop的相关环...
HT_Jonson阅读 8,221评论 0赞 50
hadoop HA+Federation（高可用联邦）模式搭建指南
简述 hadoop 集群一共有4种部署模式，详见《hadoop 生态圈介绍》。HA联邦模式解决了单纯HA模式的性能...
mtide阅读 14,539评论 8赞 20

友情链接更多精彩内容

4赞5赞

赞赏

手机看全文