一、Kettle简介
Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix系统上运行,绿色无需安装,数据抽取高效稳定。
Kettle现已更名为PDI(Pentaho Data Integration-Pentaho,意思是数据集成)。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
二、Kettle部署
步骤1:安装JDK
由于Kettle是java语言开发的,需要先安装JDK准备好java软件的运行环境。
步骤2:配置环境变量
JAVA_HOME:C:\Program Files\Java\jdk1.8.0_201(java的安装目录)
KETTLE_HOME:D:\workspace\kettle\data-integration(kettle的解压目录)
在Path环境变量中添加上面两个环境变量,两侧加%符号,例:%KETTLE_HOME:D%
步骤3:在data-integration目录下找到Spoon.bat,双击启动
三、Kettle快速体验
步骤1:新建一个转换文件
步骤2:在工作区域画出 CSV文件输入 ----> Excel输出(注意:连线后要选择“主输出步骤”)
步骤3:编辑 CSV文件输入,选择CSV文件,点击获取字段
步骤4:编辑Excel输出,选择输出文件路径和名称,然后获取字段
步骤5:保存并点击运行
四、Kettle核心概念
五、表输入
步骤1:将数据库驱动放入lib文件夹下(放入后需要重启kettle,才能加载jar包)
步骤2:将表输入拖进工作区域,编辑表输入步骤
步骤3:使用Excel输出做测试,操作步骤可以看“三、Kettle快速体验”
六、表输出
步骤1:按“五、表输入”的步骤,将表输入拖进工作区域并配置好
步骤2:配置数据库连接
步骤3:将表输出拖进工作区域并配置
步骤4:保存并点击运行
步骤5:运行后发现中文乱码,解决方法是在数据库连接配置中添加characterEncoding=utf8
步骤6:再次保存点击运行,这次可以正常显示中文了(测试时可能会出现id重复的错误,需要删除之前运行插入的数据)
七、插入/更新
步骤1:按“表输入”的步骤,将表输入拖进工作区域并配置好
步骤2:配置数据库连接
步骤3:将插入/更新拖进工作区域并配置
步骤4:保存并点击运行