Hbase集群安装指南
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制。
Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。
Hbase基于Hadoop,所以安装Hbase之前,需要安装好Hadoop集群,包含Java、ssh免密登录、Zookeeper、Hadoop。
基础配置
安装Hadoop之间,给各节点创建用户,尽量不要在root用户下进行环境搭建。
涉及到集群部署,虚拟机或服务器都被称为主节点、子节点。基础配置,集群中每个节点都需要做。
-
/etc/hosts和/etc/hostname配置
配置hostname时,不要使用“.”“_"等特殊字符,这些字符会导致hadoop启动失败。
hosts配置格式为集群机器ip 机器hostname,比如:
192.168.100.10 hadoopa 192.168.100.11 hadoopb 192.168.100.12 hadoopc
-
ssh免密登录配置
- 生成ssh公钥
ssh-keygen -t rsa
当前用户Home目录下的.ssh目录会生成公钥文件(id_rsa.pub)和私钥文件(id_rsa)
-
分发公钥
将生成的公钥分发给其他节点,本机也要复制一份。
进入个人/home/.ssh下执行如下命令:
ssh-copy-id xxx(节点名称)
Java安装与环境变量配置
安装jdk 1.8
yum -y install java-1.8.0-openjdk*
查询java安装路径
ls -l rt /usr/bin/java
ls -l rt /etc/alternatives/java
Zookeeper安装
安装Zookeeper之间需要先安装Java
下载解压
wget https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz
tar -zxvf zookeeper-3.4.14.tar.gz
cp zookeeper-3.4.14 /usr/local/zookeeper -r
配置conf文件夹下zoo.cfg
cp zoo_sample.cfg zoo.cfg
修改或新增内容
dataDir=/usr/local/zookeeper/data
server.1=192.168.1.91:2888:3888
server.2=192.168.1.92:2888:3888
server.3=192.168.1.93:2888:3888
在/usr/local/zookeeper/data下创建文件并写入内容
touch myid
echo "1">>myid
复制zookeeper到其他节点,主节点名称hadoopa, 目标节点名称hadoopb
scp -r /usr/local/zookeeper hadoopb:/usr/local/
修改hadoopb节点文件myid
echo "2">myid
复制到其他节点步骤一致。
启动,停止和查看状态
各个节点都要执行启动或者停止命令
/usr/local/zookeeper-3.4.6/bin/zkServer.sh start
/usr/local/zookeeper-3.4.6/bin/zkServer.sh stop
/usr/local/zookeeper-3.4.6/bin/zkServer.sh status
zookeeper启动之后会自动选择leader和follwer
Hadoop安装
下载
wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.1.2/hadoop-3.1.2.tar.gz
解压到 个人/home/hadoop下
tar -zxvf download/hadoop-3.1.2.tar.gz
文件配置
配置文件都在hadoop解压目录的etc/hadoop/下
-
hadoop-env.sh配置
找到 export JAVA_HOME= .....这行改为我们实际配置的 JAVA_HOME 路径,并去掉 # 号注释
-
core-site.xml配置
configuration标签里添加如下配置,其中hadoopa为主机名,xiaoming为用户文件夹
<property> <name>fs.defaultFS</name> <value>hdfs://hadoopa:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/xiaoming/hadoopdata</value> </property>
-
hdfs-site.xml配置
指定 HDFS 副本数量
注意:Hadoop3.1的namenode节点端口从50070改为9870端口了
<configuration> <property> <name>dfs.replication</name> <value>2</value> </property> </configuration>
-
mapred-site.xml配置
指定 MapReduce运行在yarn上
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
-
yarn-site.xml配置
指定 ResourceManager 服务节点
<configuration> <property> <name>yarn.resourcemanger.hostname</name> <value>hadoopa</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
-
workers配置
之前我使用hadoop-2.6 这个文件名为 slaves ,现在3.0版本为 workers
在此文件添加 我们作为DataNode节点的两台台机器的主机名,如果我们只将hadoopa 作为 namenode不做为datanode的话,就不用在此文件中添加hadoopa 了,我这里三台机器都做为 DataNode 节点
hadoopa hadoopb hadoopc
分发配置完成的Hadoop文件夹
将Hadoop发到另外两台机器
scp -r /home/用户名/hadoop/ 用户名@hadoopb:/home/用户名/
scp -r /home/用户名/hadoop/ 用户名@hadoopc:/home/用户名/
配置Hadoop 环境变量
三台机器都需要配置
root 账户下执行:vi /etc/profile
export HADOOP_HOME=/home/xiaoming/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
然后保存退出
执行 source /etc/profile 使配置生效
初始化操作
完成以上步骤后,需要先格式化文件系统
在 NameNode 节点上执行,我上面的配置是将 hadoopa 作为 NameNodde 节点,hadoopb,hadoopc 作为 DataNode 节点
在 hadoopa 下执行格式化
普通账户下 执行:hdfs namenode -format
启动hadoop
start-all.sh 启动Hadoop集群
stop-all.sh 关闭Hadoop集群
验证hadoop
在namenode节点下执行jps,可以看到如下进程:NodeManager、ResourceManager、DataNode、NameNode、SecondaryNameNode。
在datanode节点下执行jps,可以看到如下进程:DataNode、NodeManager
如果发现缺少进程,进入logs文件夹,查看相应进程对应的日志文件。
通过浏览器访问WEB UI:http://ip:9870
Hbase安装
版本对应关系:Hadoop 3.1.2 \ Hbase-2.2.x \ ZooKeeper 3.4.x
版本不对应会导致软件无法正常工作。
没有做特殊说明,操作都是在普通用户下进行。
下载及安装
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.2.0/hbase-2.2.0-bin.tar.gz
将下载的文件解压到用户目标目录,这里是/home/xiaoming/
tar xvzf hbase-2.2.0-bin.tar.gz /home/xiaoming/
管理员用户下设置环境变量
vi /etc/profile
# 在 /etc/profile 文件末尾添加如下内容
export HBASE_HOME=/home/xiaoming/hbase-2.2.0
export PATH=$HBASE_HOME/bin:$PATH
# 使配置生效
source /etc/profile
配置Hbase
-
修改hbase-2.2.0/conf下hbase-env.sh
export JAVA_HOME=/usr/lib/jvm/java-1.8.0 #禁用Hbase自带的zookeeper export HBASE_MANAGES_ZK=false
-
修改hbase-2.2.0/conf下hbase-site.xml
<configuration> <!-- 指定hbase在HDFS上存储的路径 --> <property> <name>hbase.rootdir</name> <value>hdfs://hadoopa:9000/hbase</value> </property> <!-- 指定hbase是分布式的 --> <property> <name>hbase.cluster.distributed</name> <value>true</value> </property> <!-- 指定zk的地址,多个用“,”分割 --> <property> <name>hbase.zookeeper.quorum</name> <value>192.168.100.10:2181,192.168.100.11:2181,192.168.100.12:2181</value> </property> <property> <name>hbase.zookeeper.property.dataDir</name> <value>/home/xiaoming/data/zookeeper</value> </property> <property> <name>hbase.unsafe.stream.capability.enforce</name> <value>false</value> </property> </configuration>
-
修改hbase-2.2.0/conf下regionservers
添加节点hostname
hadoopa
hadoopb
hadoopc
-
拷贝hadoop配置文件core-site.xml和hdfs-site.xml到hbase-2.2.0/conf下
cp $HADOOP_HOME/etc/hadoop/core-site.xml $HBASE_HOME/conf/ cp $HADOOP_HOME/etc/hadoop/hdfs-site.xml $HBASE_HOME/conf/
-
分发Hbase文件到其他节点
scp -r hbase-2.2.0/ hadoopb:/home/xiaoming/ scp -r hbase-2.2.0/ hadoopc:/home/xiaoming/
启动Hbase
在启动Hbase之前,先启动zookeeper和hadoop。
在哪个节点上输入启动命令start-hbase.sh
,哪个节点就是Hmaster。启动完成后可以通过jps
查看进程。
Hmaster节点进程:
SecondaryNameNode
NodeManager
ResourceManager
HRegionServer
Jps
DataNode
QuorumPeerMain
HMaster
NameNode
子节点进程:
QuorumPeerMain
HRegionServer
DataNode
Jps
NodeManager
启动完成后,可以通过WEB UI查看Hbase集群情况,http://ip:16010
如果发现子节点启动HRegionServer失败,通常是因为子节点系统的时间不同步造成的。调整系统时间即可解决。