DataX使用

参考:阿里云开源离线同步工具DataX3.0介绍
https://github.com/alibaba/DataX/wiki/DataX-Introduction

需求:数据库中从源数据机器A Hive到另外一个目标机器B中的 Hive。

  1. 步骤一、在B机器建表。
  2. 配置json文件,注意格式之间的对应关系。先要分析数据是从什么工具到什么工具,即分清每一次的reader和writer。hive和DataX参见
image.png


在reader只能写dataX的数据形式(左侧),在writer只能写hive表数据类型。配置完成。

  1. 使用datax.py文件运行json文件即可。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容