ETL的概念
ETL是英文Extract-Transform-Load的缩写,分别表示用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,它能够对各种分布的、异构的源数据(如关系数据)进行抽取,按照预先设计的规则将不完整数据、重复数据以及错误数据等脏数据内容进行清洗,得到符合要求的“干净”数据,并加载到数据仓库中进行存储,这些“干净”数据就成为了数据分析、数据挖掘的基石。
ETL是实现商务智能(Business Intelligence,即BI)的核心和灵魂,一般情况下ETL会花费掉整个BI项目三分之一的时间,因此ETL设计的好坏直接影响到BI项目的成败。
常用ETL实现方式
1、借用ETL工具(如Pentaho Kettle)
该方式可以快速建立ETL工程,屏蔽复杂的编码任务,加快速度和降低难度,但是缺少灵活性。
2、编写SQL语句
该方法的优点是灵活,可以提高ETL的运行效率,但是编码复杂,对技术要求比较高
3、将ETL工具和SQL语句结合使用
该方法综合了前两种的优点,可以极大地提高ETL的开发速度和效率
数据的抽取
所有的数据不是都有实际的价值。数据的抽取分为全量抽取和增量抽取。
全量抽取:类似于数据迁移和数据复制
增量抽取:新增或被修改的数据。
spoon初体验
1、输入文件类型
1
2、导入CSV文件
2
3、选择输出控件
3
4、创建“跳”
4
5、确定文件存放位置
5
6、执行、查看文件
6