数仓入门基础-7-数仓规范

数仓规范,看似是无关紧要,实则是数仓实施最重要要素,也是衡量数仓标准的重要条件,有了规范,才能尽可能避免一些坑。

1.模型分层
数仓入门基础-5-数仓建模

2.表命名规范
ods层:数据引入层
日志类非结构化表:ods_[数据域]_ [自定义内容]_ [刷新频率]
业务库结构化同步表:ods_[数据域]_ [业务库名]_ [表名]_[刷新频率]

dwd层:明细数据层
dwd_[数据域] _[自定义内容] _[粒度] _[刷新频率]

dws层:公共汇总层
dws_{数据域}_[主题域] _[自定义内容] _[粒度] _[刷新频率]

ads层: 数据应用层
ads_{数据域}_ [自定义内容]_ [粒度]_[刷新频率]

组合标记 标记含义
ma 按月分区全量更新
mi 按月分区增量更新
da 按天分区全量更新
di 按天分区增量更新
ha 按小时分区全量更新
hi 按小时分区增量更新

3.字段规范
3.1命名

  • 小写
  • 下划线分割
  • 可读性优于长度
  • 数量字段后缀 _cnt等标识...
  • 金额字段后缀 _price 标识
  • 禁止使用sql关键字

3.2字段格式

  • 浮点数使用decimal(28,6)控制精度等

3.3 NULL字段处理

  • 对于维度字段,需设置为-1
  • 对于指标字段,需设置为0

4.外部表规范

  • 使用hive外部表,避免误操作行为
  • 压缩方式,使用orc、parquet文件格式 gz压缩 等

5.口径规范
保证主题域内,指标口径一致,无歧义

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容