数据质量

浅谈数据质量管理:为了更清醒的数据

数据质量管理的一些思考

大数据Clouder认证:使用MaxCompute进行数据质量核查

度量的两个方面:

1、设计质量度量

数据资产目录 数据标准 数据模型 数据分布

2、执行质量度量

完整性 准确性 唯一性 一致性 及时性 有效性  (单列、跨列、跨行、跨表)


数据质量设计原则

1、关键环节注入监控流程 比如数据源接入、多维模型等

2、重要数据:事务数据、主数据、基础数据(数据字典)要进入监控流程;持续稳定的数据可以退出监控流程;价值密度低可以退出监控流程;


数据质量四部曲

策划、控制、度量、改进


扩展知识,实践经验:

打分机制:

指定表的质量KPI,针对表的故障率进行数据质量运营。

最主要的数据质量度量:

1、完整性:空值,数据量(是否漏传)等;

2、一致性:各层前后结果是否一致;

3、是否重复性:数据在单层是否重复

工具:

Griffin 功能有Bug 

Shell+Hive 建议(通过Web界面化)

各层校验规则:

ods层:

- 增量数据记录数(短期)设置合理值

- 全量数据记录数(长期)设置合理值

- 空值:

-重复值:使用不为空的字段校验

dwd层:

- 一致性 将需要一致性检测的字段,与ods层做关联join

- 重复性 使用不为空的字段校验

- 空值不需要检验:因为已经做了一致性校验了

dws/dwt层:

- 思路跟ods层一样

ads层:

- 判定指标是否在合理范围内,需设置合理值,与之对比,如超预期,展现层不体现该指标,并触发质量问题排查追踪(atlas追踪血缘关系,触发ETL流程)

数据质量修复:

1、数据丢失:按DT分区,重新导入

2、数据重复:分区表:按DT分区,删除分区所有数据,重新导入;全量表:重导一次

3、指标不符合正常规律:atlas追踪血缘关系,触发ETL流程

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容