《整体方案》
我们回顾上个章节所阐述的痛点,提炼下来,主要是:数据不统一,数据重复建设,数据定位困难,深入分析原因,可归纳为如下几点:
1.管理上无专门数据组来承载数据资产的维护,常用数据沉淀的职责:各个业务组承担着各自的对外数据开发的职责,他们有权限随意建表和数据流程,无收拢口径;
2.数据定义缺乏规范:数仓里的数据杂乱无章,表和字段命名不规范,指标计算不统一,导致无法得知该数据的属性,用途,所以相同的业务想要使用的时候,只能从最底层创建相同的表,进一步加大了重复表带来的存储和管理成本;
3.缺乏科学的建模规范:缺乏一套科学成熟的方法,来对数仓的数据进行管理,上面说的数据规范化定义的作用是能快速知道表的作用和业务属性,而建模规范指的是整个数仓数据表的流程化建立的标准化;
4.无流程化的研发规范:开发人员在接触需求后,无统一的需求研究,模型设计等环节,大多都是直接上手开发,导致数据流程开发无章法;
基于以上的原因分析,对问题逐个击破,所形成的核心解决思路为:从 管理组织规范->数据定义规范->数据建模规范->研发流程规范->规范化推进 分步骤有序建立数据规范并落地
下面对这几个模块进行说明:
1.管理组织规范:
成立一个专门的数据管理组是很有必要的,其职责是将数据统一管理,开发的权限收拢,统一数据的入口和出口,统一进行数据资产的维护,这样可以大大降低数据权限放开过大导致的风险;如何理解数据资产的维护?比如我们的业务指标,数据管理组需要协助业务组按照规范来定义指标, 负责指标的管理与运营,保障指标从创建、审核、上线以及到最后消亡的整个生命周期的运营。
2.数据定义规范:
主要包括对数据仓库的数据表和数据指标的规范定义。通过制定数据表和数据指标规范,来丰富我们的元数据,并确保指标的清晰定义,作为数据仓库治理过程的最基础的一个环节,合理的数据规范定义非常重要,定义规范后,在进行数据使用时候就能见名知意,加速数据定位速度。
3.数据建模规范:
我们需要对数仓进行分层管理,并按照业务特点来对主题进行划分,所有数据在横向上属于某个层次的表,在纵向上属于某一个主题的表,明确了数仓中各层和各主题的职责和边界后,构建一致的基础数据核心模型,并基于业务迭代来不断完善和迭代相应的模型和规范。
4.研发流程规范
对于数据研发项目严格遵循目前的软件研发流程,经过需求调研,模型设计,模型测试,模型发布 这些环节来保证标准化的数据流程的建立,通过企业内部需求管理系统来对需求进行集中管理,并将研发环境与线上环境进行隔离。
5.规范化推进
在成立了数据管理小组,定义好各种规范后,我们需要去推进这些规范的落地,去存量和控新增 是这个阶段的主要目标:
去存量的过程,就是将存量数据由乱到治的过程,需要使用上面定义的各种标准对存量数据进行规范化,并且通过方法来保障存量数据标准化后的可持续性;
控新增阶段,我们需要建立各种自动化手段来定期监测数据的合理性和规范性,确保规章制度的落实。
通过对痛点的拆解和原因的分析,提出了建设规范化数据的核心思路:从管理组织规范->数据定义规范->数据建模规范->研发流程规范->规范化推进 逐步解决,最终达到规范化数据的目标;在下面的章节中,将针对每个环节进行更细化的展开 ,欢迎大家一起学习。