一、集群基础环境配置
- 关闭防火墙
- 配置ntp服务时钟,与主节点同步: server 90.0.25.1
- 配置SSH免密登录
- 配置hosts文件:vim /etc/hosts
- 安装jdk
二、Hadoop配置
Hadoop安装包
修改slaves配置,分发到各个节点
把/etc/hadoop下的配置文件发送到新节点,并新建相关目录:mkdir tmp journaldata name data logs pids
注意修改/etc/profile配置文件,并使配置生效
在新节点上启动DataNode:./hadoop-daemon.sh start datanode
在主节点上执行:hdfs dfsadmin -refreshNodes
查看列表信息:hdfs dfsadmin -report
设置负载均衡带宽:hdfs dfsadmin -setBalancerBandwidth 67108864
数据传输带宽默认为1M,这里设置为64M
- hdfs负载均衡:./sbin/start-balancer.sh -threshold 1
磁盘总利用率与各个节点的利用率之差的绝对值不超过1%。
执行该操作后,会看到其他节点上的block转移到新加入的节点上。
小插曲:在生产环境上,执行以上操作后随即启动Regionserver,导致平台无法访问HBase,业务受到影响。吓得我立马停掉新的Regionserver平台才得以恢复。
原因:这里需要等待Hadoop集群blocks达到平衡。
三、HBase配置
- HBase安装包,解压
- 修改/etc/profile配置文件,并使其生效
- 修改regionservers的配置,并发送到所有节点
- 将其他节点的conf目录发送到新节点
- 创建相关目录:mkdir pids tmp logs
- 启动regionserver:./hbase-daemon.sh start regionserver
- 负载均衡,进入hbase shell执行:balance_switch true