数仓--Theory--数仓数据质量监控

暂时定义为数仓的质量管理,完全可以定义为数据中台的质量管理

数据质量的理解

  • 数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。 数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进,进而保证数据的恰当使用。

数据质量维度

也有说是6个维度的,本文是5个维度

  • 完备性(也可以理解为准确性)
  • 有效性
  • 及时性
  • 一致性
  • 完整性

气泡图如下所示:


数据质量维度.PNG

其中,ODS层主要完整性、有效性、及时性;
DW层主要是完整性、一致性、有效性、完备性;
APP层主要是完备性、及时性。

问题反馈流程

数据核查人员--->>>数据清洗人员---->>>数据开发人员--->>>修复、测试、上线--->>>添加至数据问题库--->>>数据核查人员

数据质量治理的三个阶段

  • 被动问题治理阶段
  • 主动问题发现阶段
  • 预防出现问题阶段


    数据质量治理流程.png

数据质量产生的根本原因

源系统
01-源系统数据结构发生变更;
02-源系统业务流程发生变更;
03-源系统数据录入错误或者延迟;
04-源系统随着时间的推移,数据发生了演变;
05-源系统数据发生震荡;
ETL系统
01-需求不明确或者是没有满足客户需求;
02-ETL映射规则错误;
03-ETL程序错误;
04-数据没有及时到达或者依赖错误;
定时调度系统
01-调度系统因数据延迟到达严重延迟;
02-调度系统自身故障;
业务需求
01-随着时间的推移,数据需求发生了变化;
02-源系统和源业务需求发生冲突;

数据质量治理的对象

推荐学习博客 数据中台专栏(三):数据质量分析及提升

确定大数据治理的组织和角色.jpg

数据质量战略

  • 大多数企业都没有一个数据战略,因为他们不理解其数据的价值,并且他们不认为数据是一个组织的资产,而把数据看作创建它的部门领域内的东西。
  • 缺乏数据战略将导致脏数据、冗余数据、数据不一致、无法整合、性能底下、可用性差、责任缺失、用户日益不满意IT的性能。

数据质量战略12条指令

  • 指令主要分为三组:
    • 第一组着眼于数据在企业内的重要性,并需要由高级管理层来推动。
    • 第二组把制造实物产品的概念应用到数据上,它们应该由数据质量项目团队推动。
    • 第三组的重点是建设质量文化,以应对数据的流体性质并满足战略管理的持续挑战。

具体如下所示:
第一组
01-获取管理层对数据质量的承若;
02-把数据当作资产;
03-应用资源来注重质量;
04-建立数据的元数据;
第二组
05-把数据当作可测量和可改进的流程的一个产品(重点落地到产品);
06-认识到数据质量是由数据消费者定义的;
07-解决造成数据质量的根本原因;
08-测试数据质量,监控关键数据;
第三组
09-保证数据生成者对自己的数据质量和元数据负责;
10-为数据消费者提供他们所需要的数据知识;
11-为数据的演进做规划;
12-构建数据质量超越数据本身的质量文化。

数据质量测试框架

数据质量测试框架.jpg

最初的一次评估

  • 初步评估通过数据剖析来完成的,数据剖析通常在准备把数据存入数据仓库是做一次,它是全面和跨数据集的,它描述了数据结构、内容、规则、和关系的概况。通过应用统计方法返回一组关于数据的标准特征,包括数据类型、字段长度、列基数、粒度、值域、格式模式、隐含的规则、跨列和跨表的数据关系,以及这些关系的基数。初步评估的目的是获得对数据和环境的了解,并对数据的状况进行描述。

数据剖析包括:

数据剖析.jpg

初步评估执行流程

初步评估流程.png

初步评估的结果与交互结果

01-源系统的业务流程;
02-源系统的技术流程;
03-对数据模型的改进建议;
04-源系统改进机会的评估总结;
05-对元数据和参考数据的改进建议;
06-用于持续测量和控制的计划;

持续测量流程

持续测量流程图.png

持续测量的结果与交付结果

01-完备性总结;
02-有效性总结;
03-一致性总结;
04-数据流程效率总结;
05-对持续发现的问题进行跟踪;
06-对改进的步骤进行结果验证;

过程控制解决方案

推荐学习博客 关于数据仓库数据质量的问题处理
这一点主要是处理ETL过程中

  • 通常情况下,当我们遇到错误数据, ETL 一般提供以下 4 种解决办法:
    1、没有任何处理的通过记录
    2、通过记录,打上错误标记
    3、拒绝记录
    4、停止 ETL 任务

  • 下面就这几种情况进行一下分析:
    首先选项 1明显不能保证数据质量,并将最终影响报表质量。
    其次选项 3也不能保证数据完整性,因为数据将发生遗弃,也将会影响报表质量。
    再次选项 4会影响 ETL处理,导致数据仓库不能正常运行下去。
    所以,最常见的处理方式就是选项 2,首先保证这些记录顺利通过,然后记录一些错误标志,并通过报表反映出来。

  • 这样做有以下四种好处:
    1、通过特殊处理确保了数据的完整性
    2、反映了数据仓库的数据源数据质量
    3、对数据质量可以有一个比较准确的度量
    4、确保了数据仓库的顺利实施和任务的正常调度
    数据质量应该尽量确保在 ETL 环节中进行,因为每一点的错误都会导致后续处理的无限放大,同时数据仓库的处理是线性进行的,当发现错误时,很难回过头来对数据进行重新的处理。因此尽量把错误和数据质量问题消除在靠前的位置。

定期测量

  • 针对非关键性数据和不适合持续测量的数据,定期重新评估为数据所处状态符合预期提供一定程度的保证。定期评估可以确保参考数据保持最新,关系依然稳定,并且业务和技术演进不会导致意外的数据更改。

测试类型清单参考

测试类型参考清单

数据质量监控软件

  • 推荐学习一下Apache Griffin(Ebay开源数据质量监控平台),2018年12月成了Apache顶级项目

具体监测案例

推荐学习博客 ### 数据质量监控 - 晨柳溪 - 博客园

参考博客: 数据仓库(六)之数据质量篇 https://blog.csdn.net/weixin_44033089/article/details/87511165
聊聊大数据质量监控的那些事 https://zhuanlan.zhihu.com/p/41679658
数据中台专栏(三):数据质量分析及提升 https://yq.aliyun.com/articles/604574?spm=a2c4e.11155435.0.0.723c4bf76PGu1h

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容