一、Zookeeper备份与迁移恢复
- 版本:3.4.5
- 目录:/var/lib/zookeeper
- 容量:namenode1(2543M)、namenode2(2515M)、datanode11(2498M)、datanode6(2574M)、datanode7(2407M)
- 依赖:无
1.1 备份数据文件
cd /var/lib/zookeeper/
tar -zcvf zookeeper-backup-`date +%F`CM-CDH.tar.gz version-2 myid
md5sum zookeeper-backup-`date +%F`CM-CDH.tar.gz > zookeeper_backup.md5
1.2 拷贝备份文件发送到目标服务器(仅做备份用)
scp /var/lib/zookeeper/zookeeper-backup-`date +%F`CM-CDH.tar.gz zookeeper_backup.md5 用户名@IP:/tmp
1.3 登陆到目标服务器
mkdir /var/lib/zookeeper
# 修改目录属组为zookeeper
chown -R zookeeper:zookeeper /var/lib/zookeeper
cp /tmp/zookeeper* /var/lib/zookeeper/
# 在目标服务器上对拷贝后的文件再次生成md5,与zookeeper_backup.md5文件值进行对比。
md5sum -c zookeeper_backup.md5
tar -zxvf zookeeper-backup-`date +%F`CM-CDH.tar.gz
# 创建myid(参考最新ID+1)
echo 4 > myid
chown zookeeper:zookeeper myid
1.4 删除旧角色
选择ZooKeeper-->实例-->选择旧实例(非leader)-->停止-->删除
1.5 添加新角色
使用CDH,选择zookeeper,"添加角色实例"--> 选择目标主机-->路径选择"/var/lib/zookeeper/"点击继续-->点击完成 -->返回zookeepery实例操作页面,选择新的角色Server-->点击启动
1.6 重启客户端过期配置
选择剩余三个Serer角色,依次重启。 并检查只有一个Leader节点。其他节点都是follower
验证:echo "stat" | nc master 2181 | grep Mode
1.7 验证
验证: 使用CDH,查看zookeeper服务各个实例运行正常,监控指标正常。
查看zk的各个server上,调用zoo.cfg文件中serverid是否修改成功: ps -ef |grep zoo.cfg ; grep server 绝对路径/zoo.cfg 核实是否正确。
注意修改hostname; 快照数据文件在系统盘上,但是配置信息参数只保留5天的数据。并且快照文件不大。无需单独设定盘存放。
二、HDFS NameNode备份与迁移恢复
- 版本:2.6.0
- 容量:namenode1(829M)-活动、 namenode2(880M)-备用
- 目录位置:/dfs/nn 系统盘
- 相关依赖:无
- 备注:迁移NameNode时,必须同Failover Controller一起迁移
2.1 进入safemode模式
$ sudo -u hdfs hadoop dfsadmin -safemode enter
2.2 将所有edits 修改flush到fsimage
$ sudo -u hdfs hadoop dfsadmin -saveNamespace
2.3 备份namenode元数据
mkdir /tmp/namenode_backup
# 将nn目录下所有文件压缩
cd /dfs
tar -zcvf /tmp/namenode_backup/nn_backup_`date +%F`.tar.gz nn
# 记录md5值
md5sum /tmp/namenode_backup/nn_backup_`date +%F`.tar.gz > /tmp/namenode_backup/nn_backup.md5
2.4 发送到目标服务器上
cd /tmp/namenode_backup
scp nn_backup_`date +%F`.tar.gz nn_backup.md5 用户名@IP:/tmp
# 在目标服务器上,重新生成md5与原md5值校验是否一致
md5sum -c /tmp/nn_backup_new.md5
# 解压缩到目标位置
mkdir /dfs
cp /tmp/nn_backup* /dfs
tar -zxf nn_backup_`date +%F`.tar.gz
2.5 退出safemode模式(此模式下,主备切换会失败)
$ sudo -u hdfs hadoop dfsadmin -safemode leave
2.6 删除旧角色
使用CDH---->HDFS实例---->分别选择{NameNode}---->选择{备用NameNode}---->停止---->删除
2.7 添加新角色
CDH---->NameNode
|-->添加角色实例
|-->选择新{NameNode和Failover Controller}
|-->点击继续→完成
|-->返回NameNode实例页面
|-->点击新角色NameNode
|-->配置
|-->添加以下配置(添加新Namenode角色后需要修改配置):
1、NameNode Nameservice 与主NameNode的值一致。"nameservice1"
2、Quorum Journal 名称 与主NameNode的值一致。"nameservice1"
3、dfs.ha.automatic-failover.enabled 点击启用
|-->选择新加入的“: Failover Controller”
|-->点击启动
|-->选择旧的Failover Controller 角色-->停止-->删除。
|-->依次点击NameNode(活动)角色 重启
|-->选择新加入的NameNode 角色
|-->点击启动 (前提是已经确认备份的nn元数据文件 已经放到目标路径 例如/dfs/nn)
|-->依次重启其他“使用过时的配置”的角色
2.9 重新部署客户端配置
最后等所有服务都启动正常后, 点击页面左上角 HDFS-->过期配置:需要重新部署客户端配置。
验证: 使用CDH,查看namenode服务各个实例运行正常,监控指标正常。
备注:如果选择备用NameNode-->迁移角色-->选择源主机和目标主机-->这种方式会重启整个集群
三、HDFS JournalNodes备份与迁移恢复
- 目录:/dfs/jn 系统盘
- 容量:datanode7(250M)、 datanode6(250M)、datanode12(250M)
- 依赖:无
- 备份:在所有journalNodes角色主机上运行
3.1 备份namenode元数据
mkdir /tmp/journalnode_backup
cd /dfs
tar -zcvf /tmp/journalnode_backup/jn_backup_`date +%F`.tar.gz jn
# 记录md5值
md5sum /tmp/journalnode_backup/jn_backup_`date +%F`.tar.gz > /tmp/journalnode_backup/jn_backup.md5
3.2 发送到目标服务器上
scp /tmp/journalnode_backup/jn_backup* 用户名@目标IP:/tmp
# 在目标服务器上,重新生成md5与原md5值校验是否一致
md5sum -c /tmp/jn_backup_new.md5
# 解压缩到目标位置
mkdir /dfs
cd /dfs
cp /tmp/jn_backup* /dfs
tar -zxf jn_backup_`date +%F`.tar.gz
chown hdfs:hadoop -R /dfs/jn
【以下操作,不能处于safemode模式,否则就会报错。】
3.3 添加新角色
使用CDH,点击JournalNode-->添加角色实例-->选择新JournalNode主机-->点击继续-->完成
3.4 删除旧角色
选择HDFS实例-->选择JournalNode角色-->选择备用JournalNode→停止-->删除。
3.5 启动角色并验证
返回JournalNode实例页面-->选择新JournalNode→启动。依次重启NameNode角色。(此时会发生HA主备切换)
验证: 使用CDH,查看ournalnode服务各个实例运行正常,监控指标正常。
备注:如果选择备用JameNode-->迁移角色-->选择源主机和目标主机-->这种方式会重启整个集群
四、Hive元数据备份与迁移恢复
4.1 备份Hive元数据
版本:1.1.0
数据库容量:535M
目录位置:元数据在mysql 中存放,/opt/app/mysql_3307/data/
相关依赖:Mysql 5.1.73
-
备份Hive元数据
$ mysqldump --databases database_name --host=database_hostname --port=database_port -u database_username -p > backup_directory_path/database_name-backup-`date +%F`-CDH.sql $ md5sum database_name-backup-`date +%F`-CDH.sql > database_name-backup-`date +%F`-CDH.sql.md5
4.2、迁移前记录每个表数据量并抽取样本。
记录每个表数据量
mysql > SELECT TABLE_NAME, TABLE_ROWS FROM `information_schema`.`tables` WHERE `table_schema` = 'hive';
mysql > --抽取样本
4.3 拷贝到目标服务器
拷贝第一步中的sql和sql.md5文件到新的数据库服务器上
md5sum -c sql.md5 对比两个md5文件数值是否一致。此步骤校验数据拷贝完整性。
4.4 导入新数据库
mysql -u用户名 -p密码 数据库名 < 数据库名.sql
4.5 验证数据完整性
导入新数据库后记录表数据量并抽取样本。校验新、旧数据库中数据是否完整。
记录每个表数据量
mysql > SELECT TABLE_NAME, TABLE_ROWS FROM `information_schema`.`tables` WHERE `table_schema` = 'hive';
mysql > --抽取样本
4.6 修改hive db配置
使用CDH,点击Hive-->配置-->选择左边栏"Hive Metastore数据库" -->修改Hive Metastore 数据库主机地址。(前提是 数据库已经迁移到新环境中,如果未迁移则此步骤跳过)
4.7、启动
点击添加角色实例-->”Hive Metastore Server“ -->选择新主机地址-->点击完成-->点击启动。
4.8 删除旧角色
选择Hive实例-->选择旧的Hive Metastore Server-->停止-->删除。
4.9、重启过时配置
依次重启各个Hive Metastore Server(过时配置)
验证: 通过cdh上查看hive组件服务以及各个监控项是否正常显示。通过hive客户端操作元数据是否正常(增、删、改、差)。