参考:阿里云开源离线同步工具DataX3.0介绍
https://github.com/alibaba/DataX/wiki/DataX-Introduction
需求:数据库中从源数据机器A
Hive到另外一个目标机器B
中的 Hive。
- 步骤一、在B机器建表。
- 配置json文件,注意格式之间的对应关系。先要分析数据是从什么工具到什么工具,即分清每一次的reader和writer。hive和DataX参见
。
在reader只能写dataX的数据形式(左侧),在writer只能写hive表数据类型。配置完成。
- 使用datax.py文件运行json文件即可。