Hadoop集群间数据迁移

数据迁移

1、问题描述

新搭建了一套CDH5.13.1集群,需要将原apache上的数据迁移至新集群。

2、数据迁移工具

Distcp(分布式拷贝)用于大规模集群内部和集群之间拷贝的工具,使用Map/Reduce
实现文件分发。

3、迁移命令

hadoop distcp 数据源 目标数据源
示例:
hadoop distcp hdfs://dsap0:9000/user/hive/warehouse/XX/XX hdfs://dsap7:8020/user/hive/warehouse/XX/XX
注意点:1、该示例中数据源端口为9000,一般默认端口为8020 2、数据源和目标地址均需指定集群namenode的ip 3、distcp命令在新集群中执行(之前网上没人说,在老集群上执行一直OOM)

4、表格修复

1、创建一个和数据源表一样的表格
2、使用msck命令进行表格修复(hive客户端中执行)
示例:
msck repair table 表名

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容