从本文开始,将开始介绍针对大数据平台的ETL方法,并搭建相关的环境,构建两种数据仓库模型 。
更多信息查看:https://blue-shadow.top
开源方案 – Mondrian + 其他的开源数据库
商业方案 – SQLServer等其他商业数据库
大数据方案 – Hadoop大数据环境
其中会涉及到不同方案中使用的ETL工具,但以大数据平台为主,调度处理通过编写Python脚本执行。涉及两种数据仓库模型:多维分析数据模型和Data Valut数据模型。
配置,可视化操作;使用Python进行开发,在Airflow中调用各种不同的Python脚本处理不同的任务。
1 安装环境 – 需要安装
管理工具 : Ambari , 其他
大数据环境: Hadoop & Spark & Hive & HBase (HBase和Hive整合) (Spark和Hive整合,让Spark Sql直接调用Hive表)
调度、ETL : Airflow 、 Kettle 、 Sqoop 、 SSIS 、
数据库 : Mysql 、 Mondrian 、 SQLServer 、Hive
报表、仪表盘: Bokeh 、 Superset 、 Excel 、
2 数据模型的说明
大数据平台的安全性–权限认证和数据的保护。
3 模型数据
使用adventure works数据,作为式样数据。构建星型数据仓库模型和Data Valut 2.0模型。
4 Kettle的说明
对于Kettle的介绍和使用。使用Kettle连接各种不同的数据,模拟真实的ETL场景,但着重点是对大数据平台的对接。
5 SSIS的使用
作为SQLServer中的ETL工具,具有强大的功能与完善的功能,同样的也可以和大数据平台进行对接。
6 Sqoop说明
大数据环境的ETL工具,可以用来连接各种不同的关系数据库与Hive进行数据的交互。
7 调度系统Airflow
开源任务调度平台,通提编写Python脚本,完成各种不同类型的任务。
8 构建多维分析数据模型
9 构建Data Valut数据模型
10 Bokeh分析
11 Superset分析
12 Excel分析
13 Mondrian分析