登录注册写文章

使用kettle 定时同步csv文件数据到数据库表

使用kettle 定时同步csv文件数据到数据库表

背景

最近由Java工程师转岗为ETL数据工程师，虽然以前也有为数据集成的项目储备过kettle相关的知识，但是一直没有在生产环境中实际使用过kettle。然后最近刚好有一个比较小的活，需要每天定时同步几个csv文件到数据库表，然后用kettle大概花了一天时间做完了这个任务。

需求：将每天上传到指定目录下.tar.gz压缩包下的4个csv文件，每天定时同步到数据库表中。

解题思路

首先对压缩文件解压，解压.tar.gz文件，得到4个csv文件。
然后对4个csv文件使用kettle，输出到数据库表。
使用linux crontab 定时调用脚本完成每天的同步任务。

kettle Job流程

下面是同步csv文件Job的整体流程，整体流程是如下：
设置当前日期变量->清除表数据->同步csv到数据库*4->成功/失败邮件

整体流程

1. 设置当前日期变量

因为csv文件都是有日期后缀的，每天一个，所以获取csv文件名的时候需要拼一个当前日期字符串。因为后面4个同步csv的转换都需要这个日期字符串，所以单独用一个转换来处理这个日期字符串，然后设置到环境变量，后面的几个转换，再获取这个日期字符串，这个转换主要有3步：
获取系统时间->时间格式化->设置时间变量到环境变量，其中时间格式化是采用JavaScript插件来处理：

日期格式化

在设置时间变量步骤中，需要注意，设置的环境变量是通过第二列的${FILEDATE}来获取，而不是第一列的字段名

设置环境变量

2. 清除表数据

通过sql插件来清除4张表数据。

3. 同步CSV文件到数据库表

这部分是主要的流程，CSV文件是以当前日期结尾的，不是固定的，所以一开始需要处理csv文件名，动态拼接日期字符串。流程如下：
获取当前日期变量->处理文件名字符串->CSV文件输入->表输出

同步数据文件主要流程

处理文件名字符串字符串使用的是公式插件，然后拼接日期参数：

处理文件名

csv文件输入的时候，需要选择从上一步骤获取文件名，然后因为没有从本地选择本地文件，所以无法获取字段，可以创建一个从本地文件读取的csv输入，获取字段Copy下来，然后黏贴到下面字段列表里。

csv文件输入

shell脚本来处理压缩文件和执行Job任务

通过linux crontab 定时执行shell脚本来解压文件，以及执行kettle的Job任务。解压tar.gz文件到指定目录，然后再调用kettle kitchen命令来执行Job。

1. 处理压缩文件脚本如下：

处理压缩文件脚本

2. 执行ETL Job任务脚本如下:

执行kettle job脚本

欢迎大家赞赏、转载、点赞、评论。

最后编辑于：2017.12.08 02:32:23

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

面向对象的用电信息数据交换协议
国家电网公司企业标准（Q/GDW）- 面向对象的用电信息数据交换协议 - 报批稿：20170802 前言：排版 ...
庭说阅读 13,923评论 6赞 13
Java初级面试题
1. Java基础部分基础部分的顺序：基本语法，类相关的语法，内部类的语法，继承相关的语法，异常的语法，线程的语...
子非鱼_t_阅读 32,453评论 18赞 399

批处理学习及实际应用
个人学习批处理的初衷来源于实际工作；在某个迭代版本有个BS（安卓手游模拟器）大需求，从而在测试过程中就重复涉及到...
Luckykailiu阅读 10,268评论 0赞 11
【小说连载】老县衙·第一卷·芸娘（九）
—14— 小祥哥大名叫王文祥，被大水冲到卧虎湾那年刚刚六岁。小祥哥的家在咸水河上游的王家滩。发大水的那天，小祥哥...
听风阁主人阅读 3,555评论 0赞 2
不得不点赞！骑小黄车ofo就能除霾！大胆很想法！
卓普科技提醒：共享单车的争夺已经接近下半场，再不玩点花样，就会被淘汰！其实，共享单车在运营前期，形势一片大好，再...
暗月圣雪阅读 3,550评论 2赞 5

友情链接更多精彩内容

8赞9赞

赞赏

手机看全文