Kettle(ETL工具)学习1

一、Kettle简介

Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix系统上运行,绿色无需安装,数据抽取高效稳定。
Kettle现已更名为PDI(Pentaho Data Integration-Pentaho,意思是数据集成)。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

二、Kettle部署

步骤1:安装JDK
由于Kettle是java语言开发的,需要先安装JDK准备好java软件的运行环境。
步骤2:配置环境变量
JAVA_HOME:C:\Program Files\Java\jdk1.8.0_201(java的安装目录)
KETTLE_HOME:D:\workspace\kettle\data-integration(kettle的解压目录)
在Path环境变量中添加上面两个环境变量,两侧加%符号,例:%KETTLE_HOME:D%
步骤3:在data-integration目录下找到Spoon.bat,双击启动

三、Kettle快速体验

步骤1:新建一个转换文件
步骤2:在工作区域画出 CSV文件输入 ----> Excel输出(注意:连线后要选择“主输出步骤”)


image.png

步骤3:编辑 CSV文件输入,选择CSV文件,点击获取字段


image.png

步骤4:编辑Excel输出,选择输出文件路径和名称,然后获取字段
image.png

image.png

步骤5:保存并点击运行


image.png

四、Kettle核心概念

image.png

image.png

image.png

image.png

image.png

image.png

image.png

五、表输入

步骤1:将数据库驱动放入lib文件夹下(放入后需要重启kettle,才能加载jar包)


image.png

步骤2:将表输入拖进工作区域,编辑表输入步骤


image.png

1632648158(1).png

1632648255(1).png

步骤3:使用Excel输出做测试,操作步骤可以看“三、Kettle快速体验”

六、表输出

步骤1:按“五、表输入”的步骤,将表输入拖进工作区域并配置好
步骤2:配置数据库连接


1632648326(1).png

步骤3:将表输出拖进工作区域并配置


1632648435(1).png

步骤4:保存并点击运行
步骤5:运行后发现中文乱码,解决方法是在数据库连接配置中添加characterEncoding=utf8
image.png

步骤6:再次保存点击运行,这次可以正常显示中文了(测试时可能会出现id重复的错误,需要删除之前运行插入的数据)

七、插入/更新

步骤1:按“表输入”的步骤,将表输入拖进工作区域并配置好
步骤2:配置数据库连接
步骤3:将插入/更新拖进工作区域并配置


1632648516(1).png

步骤4:保存并点击运行

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容