登录注册写文章

大数据Spark离线数仓工业项目实战，Hive+Spark构建企业级大数据平台

大数据Spark离线数仓工业项目实战，Hive+Spark构建企业级大数据平台

项目效果

项目架构

技术选型

数据生成：业务数据库系统

Oracle：工单数据、物料数据、服务商数据、报销数据等

数据采集

Sqoop：离线数据库采集

数据存储

Hive【HDFS】：离线数据仓库【表】

数据计算

SparkCore：类MR开发方式【写代码调用方法函数来处理：面向对象 + 面向函数】

对非结构化数据进行代码处理

场景：ETL

SparkSQL：类HiveSQL开发方式【面向表】

对数据仓库中的结构化数据做处理分析

场景：统计分析

开发方式

DSL：使用函数【DSL函数 + RDD函数】

SQL：使用SQL语句对表的进行处理

功能：离线计算 + 实时计算

注意：SparkSQL可以解决所有场景的分布式计算，离线计算的选型不仅仅是SparkSQL

SparkSQL/Impala/Presto

使用方式

Python/Jar：spark-submit

ETL

ThriftServer：SparkSQL用于接收SQL请求的服务端，类似于Hive的

Hiveserver2

PyHive :Python连接SparkSQL的服务端，提交SQL语句

DBC：Java连接SparkSQL的服务端，提交SQL语句

spark-sql -f ：运行SQL文件，类似于hive -f

beeline：交互式命令行，一般用于测试

数据应用

MySQL：结果存储

Grafana：数据可视化工具

监控工具

Prometheus：服务器性能指标监控工具

调度工具

AirFlow：任务流调度工具

项目资料

链接：https://pan.baidu.com/s/1ZO8wVn4IXAebGqH5gyRR6w

提取码：jsgg

--来自百度网盘超级会员V5的分享

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

【经验】数据仓库和大数据系统框架及常见问题
1. 摘要笔者在学习过程中遇到的大数据框架，系统和数据库遇到的一些问题总结和知识汇编，也分享给大家一起学习。 2...
笔名辉哥阅读 17,653评论 0赞 5
大数据Hadoop之——Spark SQL+Spark Streaming
一、Spark SQL概述 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了两个编程抽象叫做D...
大数据老司机阅读 4,243评论 0赞 0

大数据Hadoop之——数据仓库Hive
一、概述 Hive是基于Hadoop的一个数据仓库（Data Aarehouse，简称，可以将结构化的数据文件映射...
大数据老司机阅读 3,989评论 0赞 0
零基础学习大数据路线和方向
给大家介绍一下关于零基础小白如何学习大数据路线和方向的详细解介绍，随着人们对大数据的认识越来越深入，很多零基础人员...
yoku酱阅读 1,020评论 0赞 2
0基础学习大数据你需要了解的学习路线和方向
现在大数据这么火，各行各业想转行大数据，那么问题来了，该往哪方面发展，哪方面最适合自己？首先从字面来了解一下大数...
栀子花_ef39阅读 3,068评论 0赞 3

赞1赞

赞赏

手机看全文