ETL(Kettle工具使用)

ETL的概念

ETL是英文Extract-Transform-Load的缩写,分别表示用来描述将数据从源端经过抽取(extract)转换(transform)加载(load)至目的端的过程,它能够对各种分布的、异构的源数据(如关系数据)进行抽取,按照预先设计的规则将不完整数据、重复数据以及错误数据等脏数据内容进行清洗,得到符合要求的“干净”数据,并加载到数据仓库中进行存储,这些“干净”数据就成为了数据分析、数据挖掘基石
ETL是实现商务智能(Business Intelligence,即BI)的核心和灵魂,一般情况下ETL会花费掉整个BI项目三分之一的时间,因此ETL设计的好坏直接影响到BI项目的成败

常用ETL实现方式

1、借用ETL工具(如Pentaho Kettle)

该方式可以快速建立ETL工程,屏蔽复杂的编码任务,加快速度和降低难度,但是缺少灵活性。

2、编写SQL语句

该方法的优点是灵活,可以提高ETL的运行效率,但是编码复杂,对技术要求比较高

3、将ETL工具和SQL语句结合使用

该方法综合了前两种的优点,可以极大地提高ETL的开发速度和效率

数据的抽取

所有的数据不是都有实际的价值。数据的抽取分为全量抽取和增量抽取。
全量抽取:类似于数据迁移和数据复制
增量抽取:新增或被修改的数据。

spoon初体验

1、输入文件类型


1

2、导入CSV文件


2

3、选择输出控件
3

4、创建“跳”


4

5、确定文件存放位置
5

6、执行、查看文件
6
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容