电商数据仓库项目简介

项目简介

基于hadoop生态搭建的电商数据仓库,整体功能架构包含数据采集、数仓搭建、数据导出、数据可视化等。

github地址

电商数据仓库

详情学习攻略请查看

hadoop安装

hive安装

hive常用命令

完善中...

项目踩坑请查看

Linux卸载安装Mysql踩坑

Linux报错只读文件系统(集群非法关机、断电)踩坑

sqoop拒绝连接

kafka manager启动失败解决方案

hive拒绝连接解决方案

系统架构

系统数据流程如下图:

系统数据流程图.jpeg

数仓分层如下图:

数仓分层图.png

hive表关系图如下图:

hive表关系图.jpeg

技术架构

名称 版本号 类型 说明
hadoop 2.7.6 数据存储
jdk 1.8.0 依赖
zookeeper 3.4.6 集群管理
flume 1.7.0 数据采集传输
kafka 2.11-0.11 数据采集传输
kafka manager 1.3.3 可视化管理
hive 1.2.1 数据计算 使用tez 0.9.1作为计算引擎
mysql 5.6.24 数据存储
sqoop 1.4.6 数据采集传输
azkaban 2.5.0 任务调度
presto 0.196 数据查询 使用yanagishima 18.0作为web页面
druid 2.7.10 数据查询 imply方式安装
hbase 1.2.1 数据存储

项目结构说明

├─azkaban azkaban job文件 
│
├─flume-interceptor  采集flume拦截器,用来区分日志类型与简单数据清洗
│
├─hive
│  └─gmall
│      ├─用户行为数仓 用户行为数仓hive sql
│      │     
│      └─系统业务数仓 系统业务数仓hive sql
│              
├─hive-function hive自定义函数
│              
├─log-collector 生成日志文件项目,打包成jar包后通过命令运行,将标准输出重定向至log文件即可
│             
├─mysql mysql结构、函数
│      
├─shell 数仓中常用脚本
│  ├─ads ads层加载数据脚本
│  │      
│  ├─dwd dwd层加载数据脚本
│  │      
│  ├─dws dws层加载数据脚本
│  │      
│  ├─ods ods层加载数据脚本
│  │      
│  ├─sqoop mysql导入导出数据脚本
│  │     
│  ├─tools 集群公共脚本
│  │      
│  └─utils 通用工具脚本
│          
└─spring-boot-echarts-master 可视化web项目

集群规划

集群规划

脚本说明

hive 表说明

完善中...

mysql 表说明

完善中...

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 大家好,我是leo,一个ITer,在银行从事系统开发多年。经历过股份制银行、城商行、互联网银行的系统建设。对银行系...
    acumen_leo阅读 7,216评论 5 44
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 7,732评论 16 22
  • 创业是很多人的梦想,多少人为了理想和不甘选择了创业来实现自我价值,我就是其中一个。 创业后,我由女人变成了超人,什...
    亦宝宝阅读 1,949评论 4 1
  • 今天感恩节哎,感谢一直在我身边的亲朋好友。感恩相遇!感恩不离不弃。 中午开了第一次的党会,身份的转变要...
    余生动听阅读 10,730评论 0 11
  • 可爱进取,孤独成精。努力飞翔,天堂翱翔。战争美好,孤独进取。胆大飞翔,成就辉煌。努力进取,遥望,和谐家园。可爱游走...
    赵原野阅读 3,359评论 1 1

友情链接更多精彩内容