数据治理
通过有效的管控手段,实现数据看得见、找得到、管得住、用得好,加快数据共享的效率,终极目标提升数据利用率和数据价值。
常见问题的解决
数据目录缺失
无完善、持续维护的数据目录,难以全局查看数据团队储存的所有数据。缺失清晰的数据主题和数据分类管理。数据标准缺失
缺少数据标准文件,数据理解、接入方式靠口口相传,寻找对应的源系统和接口人时,效率会比较低。数据指标、数据服务管理
没有统一的指标管理体系和文件,系统越来越庞大,指标体系复杂度会不断增加;同时指标分散在各个报表、看板和系统,定义方法和口径,难以管理。指标的建设和维护依赖于分析人员;挖掘指标价值的困难。其他方面:数据血缘、数据质量、数据告警等
解决方案&步骤的概要
数据目录
数据目录是构建企业数据架构体系的基础工作。可形成企业统一的数据资产目录,并为各业务域提供数据资产全景图。
- 盘点数据
- 数据目录分级、分域的设计
- 数据目录的协作编辑、外部共享
标准&指标
设计数据标准的属性,例如:系统来源、接入方式、服务域、源系统接口人、数据团队负责人、数据量、数据更新频率、每个字段的注释等
设计数据指标的属性,例如:业务含义、负责人、算法等
工具的选用
目前没有统一的中台系统,难以在实际数据过程中实现数据接入后对数据目录的自动更新,都需要人工长期的维护和治理。
这三部分,都属于知识方面的管理,在工具的选用方面应该要满足以下几个方面是需求。
- 符合公司规定
- 便于协同编辑和外部共享
- 易于检索和目录设计
- 足够的设计能力,满足画图、表格的输入
案例参考
在有完善、自主开发的数据中台系统中,会支持系统级别的数据治理,实现目录和标准的自动更新。
数据目录:直接在数据平台检索,能查到所有表以及对应数据标准。
数据标准:外部进来的数据统一储存在云端的对象存储(object store)中,建表后自动建立对应表的数据标准,引用create table 时每个字段的comment解释每个字段的业务含义,然后到数据目录界面完善其他信息。
数据开发规范
目前数据开发的脚本,基本上在TM1平台完成,但TM1目前不支持开发和生产脚本的分离,以及生产定时调度版本的控制,在多人协同编辑、测试开发、版本回退的情况下,都会容易出现问题。新脚本的上线也缺少监控,如果没有对历史脚本保存,则难以回退。