1 总体思路
新环境下的数据应用特征
关键词
安全、透明
大数据平台特征
- 更强大的计算和存储能力
- 多样的编程接口和框架
- 丰富的数据采集通道
- 各种安全和管理措施
仓库架构设计原则
- 自下而上+自上而下;
- 高容错性;
- 数据质量监控贯穿整个数据流程;
- 不怕数据冗余,利用存储换应用;
2 模型设计
维度建模 OR 实体关系建模
- 维度建模
简单,事实事务分析,适合业务报表和BI。 - 实体关系建模
复杂,打散数据,适合复杂数据内容(实体)的深度挖掘。
星型模型 AND 雪花模型
企业中二者并存,转化为星型模型可以减少计算和存储。
数据分层
上下分三层:
- 集市层(用)
- 中间层(通)
- 基础数据层(存)
流式数据以保证时效性。
基础数据层
数据采集、数据清洗、数据归类、数据结构化、数据规范化。
中间层
- 围绕实体打通行为(join)
- 从行为抽象关系
- 冗余是个好手段(事实表冗余部分维度信息来提高计算)
集市层
集市之间垂直构建。
集市层深度挖掘数据价值,集市层能够快速试错。
流式数据集
- 需求驱动
- 包含事实和维度
- 结构更扁平(介于成本,不会涉及中间层)
3 数据架构
数据采集
结构化数据采集
全量采集
增量采集(CDC)
实时采集
日志结构化
UDF、SerDes、
非结构化数据特征提取
视频图片语音文本标签(一般在数仓体系之外)。
数据服务
数据服务化
统计服务(sum销售总值)、分析服务(分析流式几率)、标签服务(有车、有孩标签)。
架构设计中一些实用的点
- 巧用虚拟节点
- 强制分区
- 计算框架应用
- 优化关键路径
4 数据治理
内容建设
管理(元数据、保障)
保障
数据质量(事前、事中、时候)
数据生命周期管理