一、任务清单(一)
由于大量的MR任务会造成系统盘负载100%util,使用iotop分析主要是YARN任务造成的,因此需要把YARN的数据目录/yarn/nm迁移到独立磁盘上。
主要操作是将YARN NodeManager角色的local-dir和log-dir数据目录迁移。
依次迁移:dn4、dn5、dn6、dn7、dn8、dn9(独立磁盘) ,CDH官方也建议多个目录。
CDH-->YARN-->实例-->NodeManager角色-->停止
chmod 755 /dfs/dn1
mkdir /dfs/dn1/yarn
chown yarn:hadoop /dfs/dn1/yarn
mv /yarn/* /dfs/dn1/yarn
# 修改对应NodeManager 配置
yarn.nodemanager.local-dirs=/dfs/dn1/yarn/nm
yarn.nodemanager.log-dirs=/dfs/dn1/yarn/container-logs
CDH-->YARN-->实例-->NodeManager角色-->启动
二、任务清单(二)
新加入节点dn8后手动执行rebalance(源dn8服务器在6月12日发生故障,此节点上所有角色均不可用,因此做dn8下线,并添加新的dn8服务器)
2.1 指定节点负载均衡
sudo -u hdfs hdfs balancer -D dfs.datanode.balance.max.concurrent.moves=10 -threshold 1.4 -include dn8.hostname.srv,cdh1.hostname.srv
2.2 查看日志:
19/06/13 18:07:48 INFO balancer.Dispatcher: Successfully moved blk_1077179740_3439329 with size=92588000 from IP:50010:DISK to IP:50010:DISK through IP:50010
三、任务清单(三)
角色 | 源主机 | 目标主机 |
---|---|---|
HDFS Balance | cdh1.hostname.srv | cdh7.hostname.srv |
HDFS NFS GateWay | cdh1.hostname.srv | cdh8.hostname.srv |
YARN JobHistory Server | cdh1.hostname.srv | cdh9.hostname.srv |
YARN ResourceManager | cdh1.hostname.srv | cdh6.hostname.srv |
HBase Thrift Server | cdh1.hostname.srv | cdh7.hostname.srv |
HBase Master备 | cdh1.hostname.srv | cdh9.hostname.srv |
HBase Master主 | cdh2.hostname.srv | cdh6.hostname.srv |
Alert Publisher | cdh1.hostname.srv | cdh8.hostname.srv |
Service Monitor | cdh1.hostname.srv | cdh7.hostname.srv |
Host Monitor | cdh1.hostname.srv | cdh8.hostname.srv |
3.1 HBase 各角色迁移
3.1.1 Hbase Master 角色
CDH---->HBase---->实例---->选择Master(备用)---->停止---->删除
CDH---->HBase---->实例---->添加角色实例---->Master 选择新主机---->完成---->返回实例页面---->启动新加入的Master(此时新加入的Master为备用节点)
备注: 无数据目录,无需备份,无依赖组件,无需重启集群,迁移Master(活动)节点时,会发生主备切换。
3.1.2 HBase Thrift/REST Server 角色
停止业务对HBase Thrift/REST Server 的调用。
CDH---->HBase---->实例---->选择HBase Thrift/REST Server---->停止
CDH---->HBase---->实例---->添加角色实例---->HBase Thrift/REST Server ---->完成---->返回实例页面---->启动新加入的HBase Thrift/REST Server 角色
CDH---->HBase---->实例---->选择旧的HBase Thrift/REST Server 角色---->删除
备注: 无数据目录,无需备份,无依赖组件,无需重启集群。
3.2 HDFS 各角色迁移
3.2.1 HDFS Balance 角色
CDH---->HDFS---->实例---->Balancer---->删除。(目前处于不适用状态,无需停止)
CDH---->HDFS---->实例---->添加角色实例---->Balancer---->完成。(无需点击启动)
备注: 无数据目录,无需备份,
3.2.2 HDFS NFS GateWay 角色
迁移到新节点上,需要安装rpcbind,并启动此服务【sudo service rpcbind restart 】。
CDH---->HDFS---->实例---->NFS Gateway角色---->停止---->删除
CDH---->HDFS---->实例---->添加角色实例-->NFS Gateway---->完成---->启动新加入的NW角色。
备注: 无数据目录,依赖rpcbind服务。无需重启其他服务,
3.3 YARN 各角色迁移
3.3.1、JobHistory Server 角色
CDH---->YARN---->实例---->JobHistory Server角色---->停止---->删除
CDH---->YARN---->实例---->添加角色实例---->JobHistory Server角色---->启动
重启过时服务,YARN、Hive、Spark、Spark2等过时服务。
备注: 无数据目录,无需备份,无依赖服务,
3.3.2 ResourceManager 角色
CDH---->YARN---->实例---->ResourceManager角色---->停止
CDH---->YARN---->实例---->添加角色实例---->ResourceManager角色---->完成---->启动新加入的ResourceManager角色
CDH---->YARN---->实例---->旧的ResourceManager角色---->删除
重启过期服务,会重启YARN和HIve、Spark、Spark2过期服务
备注: 无数据目录,无需备份。
3.4 Cloudera Management Service 各角色迁移
4.1、Alert Publisher 角色
记录Alert Publisher角色配置 邮件信息。
CDH---->Cloudera Management Service---->实例---->Alert Publisher角色---->停止---->删除
CDH---->Cloudera Management Service---->实例---->添加角色实例---->Alert Publisher角色---->启动
备注: 记录邮件配置信息。
4.2 Host Monitor 角色
数据目录在/var/lib/cloudera-host-monitor/, 占用磁盘空间比较大。建议压缩备份。
CDH---->Cloudera Management Service---->实例----> Host Monitor角色---->停止---->删除
拷贝压缩备份文件到新机器上,解压到/var/lib目录下。
CDH---->Cloudera Management Service---->实例---->添加角色实例---->Host Monitor角色---->启动
备注: 存在数据目录,迁移的话,可以看到历史监控数据,主要是集群(CPU、磁盘IO、网络IO等),但是迁移的话数据目录比较大。如果不需要迁移,请忽略第1、3步骤。不影响集群正常使用。
4.3 Reports Manager 角色
数据目录:/var/lib/cloudera-scm-headlamp, 压缩备份。
CDH---->Cloudera Management Service----->实例----> Reports Manager角色---->停止---->删除
拷贝压缩备份文件到新机器上,解压到/var/lib目录下
CDH---->Cloudera Management Service---->实例---->添加角色实例---->Reports Manager角色---->需要配置数据库,主机名、数据库名、用户名、密码。
启动新加入的Reports Manager角色。
备注: 存在数据目录,需要做数据迁移。 存在数据库 report,如有变更,需要修改配置。
4.4 Service Monitor 角色
数据目录:/var/lib/cloudera-service-monitor, 比较大。压缩备份。
CDH---->Cloudera Management Service---->实例---->Service Monitor角色---->停止---->删除
拷贝压缩备份文件到新机器上,解压到/var/lib目录下。
CDH---->Cloudera Management Service---->实例---->添加角色实例---->Service Monitor角色---->启动
备注: 存在数据目录,需要做数据迁移。无依赖服务。
4.5 Event Server 角色
索引目录:/var/lib/cloudera-scm-eventserver, 压缩备份。
CDH---->Cloudera Management Service---->实例----> Event Server角色---->停止---->删除
拷贝压缩备份文件到新机器上,解压到/var/lib目录下。
CDH---->Cloudera Management Service---->实例---->添加角色实例----> Event Server角色---->启动
重启依赖发服务、依次重启过时服务,选择Hbase、HDFS、YARN、Zookeeper等,主要是log相关。
备注: 存在索引目录,需要做数据迁移。有依赖服务,需要重启过期服务,不适合在线迁移。