大数据Spark离线数仓工业项目实战,Hive+Spark构建企业级大数据平台

项目效果


项目架构


技术选型

数据生成:业务数据库系统

    Oracle:工单数据、物料数据、服务商数据、报销数据等

数据采集

    Sqoop:离线数据库采集

数据存储

    Hive【HDFS】:离线数据仓库【表】

数据计算

    SparkCore:类MR开发方式【写代码调用方法函数来处理:面向对象 + 面向函数】

        对非结构化数据进行代码处理

        场景:ETL

    SparkSQL:类HiveSQL开发方式【面向表】

        对数据仓库中的结构化数据做处理分析

        场景:统计分析

        开发方式

            DSL:使用函数【DSL函数 + RDD函数】

            SQL:使用SQL语句对表的进行处理

         功能:离线计算 + 实时计算

   注意:SparkSQL可以解决所有场景的分布式计算,离线计算的选型不仅仅是SparkSQL

              SparkSQL/Impala/Presto

    使用方式

        Python/Jar:spark-submit

            ETL

        ThriftServer:SparkSQL用于接收SQL请求的服务端,类似于Hive的

        Hiveserver2

            PyHive :Python连接SparkSQL的服务端,提交SQL语句

            DBC:Java连接SparkSQL的服务端,提交SQL语句

            spark-sql -f :运行SQL文件,类似于hive -f

            beeline:交互式命令行,一般用于测试

数据应用

    MySQL:结果存储

    Grafana:数据可视化工具

监控工具

    Prometheus:服务器性能指标监控工具

调度工具

    AirFlow:任务流调度工具

项目资料

链接:https://pan.baidu.com/s/1ZO8wVn4IXAebGqH5gyRR6w

提取码:jsgg

--来自百度网盘超级会员V5的分享

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容