[数仓项目] | 项目介绍

1.两个项目

采集项目&数据仓库项目

  1. 从功能的角度
    采集项目:数据的采集、传输
    数据仓库项目:数据的计算为主,同时也存储数据
    2.从技术角度
    采集项目:flume,kafka,datax,maxwell
    数据仓库项目:Mysql, HDFS, Spark, Flink, MR

2.数据库和数据仓库

  1. 从名称上进行区分
    数据库:database
    数据仓库:data warehouse
  2. 从数据的来源进行区分
    数据库:企业中基础核心的业务数据
    数据仓库:数据库中的数据
  3. 从数据存储进行区分
    数据库:核心作用就是查找业务数据(行式存储、索引、不能存储海量数据)
    数据仓库:核心作用就是统计分析数据(列式存储、存海量数据)
    4.从数据价值进行区分
    数据库:保障全企业全业务的正常运行
    数据仓库:统计数据、支撑决策,可视化

3.数据流转过程

数据流转

4.统计分析的基本步骤

技术:Hive On Spark
步骤:


步骤
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容