ETL:分别是“Extract”、“ Transform” 、“Load”三个单词的首字母缩写,也就是“抽取”、“转换”、“装载”,但我们日常往往简称其为数据抽取。ETL是BI/DW(商务智能/数据仓库)的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。
ETL包含了三方面:
“抽取”:将数据从各种原始的业务系统中读取出来,这是所有工作的前提。
“转换”:按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来。
“装载”:将转换完的数据按计划增量或全部导入到数据仓库中。
阅读翻译过来的中文书籍的时候常见额术语(如果英语还可以建议读原版):
时间戳:
时间间隔:
固定时期:
Numpy:Numerical Python简称
dtype:数据类型
矢量化:vectorization
广播:broadcasting
花式索引:Fancy indexing
转置:transpose
通用函数:ufunc
聚合计算:aggregation,通常叫做约简
NaN:not a number
层次化索引:Hierarchical indexing
类型推断:type inference
JSON:Javascript Object Notation
XML:Extensible Markup Language
数据挖掘导论
PCA:Principal Components Analysis,主成分分析
SVD:Singular Value Decomposition,奇异值分解
关联分析:association analysis
支持向量机:support vector machines,SVM
贝叶斯信念网络:Bayesian belief networks,BNN
联机分析处理:On-Line Analytical Processing,OLAP
分类:classification
回归:regression
神经网络:Back Propagation,BP
DBMS:Datebase Management System,数据库管理系统。
RDBMS:Relational Datebase Management System,关系数据库管理系统