说说数仓(7)-浅谈数据治理


数仓总结目录:
说说数仓(1) - 什么是数仓
说说数仓(2) - 传统数仓与互联网数仓
说说数仓(3) - 数仓架构
说说数仓(4) - 指标字典
说说数仓(5)-最重要的维度之日期维度
说说数仓(6)-关于命名规范
说说数仓(7)-浅谈数据治理
说说数仓(8)-关于增量
说说数仓(9)-上下游约定
说说数仓(10)-任务注释


我忘记是在哪里看到,还是自以为的,反正目前我依然是这么想的:

广义数据仓库的建设包含很多的解决方案,其中就包含数据治理,数据治理也是贯穿整个项目始终的,是一件长久的事情。
现在很多人都把数据仓库简单的理解成数据建模了。

数据治理包含很多的事情,我也没做过,所以在网上找些资料分享下。

为什么要做数据治理

随着数据量越来越大,数据成为一种资产,我们需要更好地管理这些数据,更好地体现数据的价值,这就需要数据治理。
其实在搭建数据平台的时候,我们遇到的一系列问题都可以通过数据治理来解决:

  • 数据质量越来越差,问题发现严重滞后
  • 缺少数据标准,各个部门标准不统一
  • 数据变更对下游的影响不清晰,无法确认影响范围
什么是数据治理

数据治理(Data Governance),是一套持续改善管理机制,通常包括了数据架构组织、数据模型、政策及体系制定、技术工具、数据标准、数据质量、影响度分析、作业流程、监督及考核流程等内容。
简单来说就是有很多流程和标准,像“元数据管理”、“主数据管理”、“数据质量”都包含其中。
通过数据治理来解决我们使用数据的过程中遇到的问题。

  • 数据标准
    各种各样的规范:命名规范,数据定义,数据类型,前面我有说过这个问题,这里提到了“词素”这个概念,我前面管它叫词根了,说说数仓(6)-关于命名规范

标准规范这东西,好是好,不过冷不丁一看还是头大,先整理这些,后面缓过来继续。

可以参考IBM的文章:大数据治理系列
-- 未完待续

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容