数据质量管理
数据质量管理的思考
- 元数据为什么对数据质量管理如此重要
- 演进在数据质量问题中扮演什么角色
- 数据质量改进工作有哪些障碍
1. 业务驱动因素
建立一个正式的数据质量管理计划的业务驱动力包括:
- 增加组织数据的价值和使用数据的机会。
- 降低与数据质量差相关的风险和成本
- 提高组织效率和生产力
- 保护和提高组织的声誉
许多直接成本都与低质量的数据有关。例如:
- 无法正确开具发票
- 客户服务电话增加,解决能力下降
- 因错过商机而造成的收入损失
- 影响并购后的整合进展
- 欺诈风险的增加
- 由不良数据驱动的不良商业决策造成的损失
- 由于缺乏良好的信用状况而造成的业务损失
2. 目标和原则
数据质量计划的重点是这些总体目标:
- 根据数据消费者的要求,制定一种受控的方法,使数据适合于目的的数据
- 确定数据质量控制的标准和规范,作为数据生命周期的一部分;
- 界定和实施衡量、监测和报告数据质量水平的流程。
- 通过改变流程和系统,并根据数据消费者的要求,确定和倡导改善数据质量的机会,并参与可衡量地提高数据质量的活动。
数据质量计划应遵循以下原则:
- 关键性:数据质量计划应侧重于对企业及其客户最关键的数据。改进的优先级应根据数据的关键性和数据不正确时的风险程度来确定。
- 全生命周期管理:数据的质量应在整个数据生命周期内进行管理,从创建或采集到处理的整个过程。这包括管理数据在系统内和系统之间流动时的数据(即数据链中的每一个环节都应确保数据输出的质量是高质量的)。
- 预防:数据质量计划的重点应该是防止数据错误和降低数据可用性的条件,而不是简单地纠正记录。
- 根因修正:提高数据的质量不仅仅是纠正错误。应该理解数据质量的问题,并从根源上解决,而不仅仅是治标不治本。由于这些原因往往与流程或系统设计有关,因此提高数据质量往往需要改变流程和支持流程的系统。
- 治理:数据治理活动必须支持高质量数据的发展,数据质量计划活动必须支持和维持一个受治理的数据环境。
- 标准驱动:数据生命周期中的所有利益相关方都有数据质量要求。应尽可能以可衡量的标准和期望的形式来定义这些要求,并据此来衡量数据质量。
- 客观的衡量和透明度:需要对数据质量水平进行客观和一致的测量。测量和测量方法应与利益相关方共享,因为他们是质量的仲裁者
- 嵌入到业务流程:业务流程所有者对通过其流程产生的数据质量负责。他们必须在其流程中执行数据质量标准。
系统化执行:系统所有者必须系统地执行数据质量要求。 - 与服务水平相关联:数据质量报告和问题管理应纳入服务水平协议(SLA)中。
3. 基本概念
数据质量
数据的质量要达到数据消费者的期望和需求,才是高质量的。
关键数据
虽然关键性的具体驱动因素因行业而异,但各组织之间也有共同的特点。数据的评估可以根据以下几点进行评估:
- 监管报告
- 财务报告
- 商业政策
- 正在开展的业务
- 商业战略,尤其是差异化竞争战略
数据质量维度
Strong-Wang框架(1996)关注的是数据消费者对数据的感知。它描述了数据质量的四个大类和15个指标
内在的数据质量
- 准确性
- 客观性
- 可信度
- 信誉度
场景数据质量
- 增值性
- 关联性
- 即时性
- 完整性
- 适量性
表达数据质量
- 可解释性
- 易于理解
- 表象的一致性
- 简明的表述
访问数据质量
- 可访问性
- 访问安全性
在《信息时代的数据质量》(1996)中,Thomas Redman制定了一套根植于数据结构的数据质量维度(Redman在《数据质量:《实地指南》(2001年)中对他的这套维度进行了扩展和修订) 维度可以与数据的任何一个组成部分---模型(实体和属性)以及值---的任何一个组成部分相关联。Redman包括了表示的维度,他将其定义为记录数据项的一组规则。在这三个一般的类别(数据模型、数据值、表征)中,他描述了二十多个维度。
Larry English在《改进数据仓库和商业信息质量》(1999年)中提出了一套全面的维度,分为两大类:固有特征和实用性特征(English在《信息质量应用》(2009年)中扩展和修订了他的维度。)。实用性特征是与数据呈现相关联的,是动态的;其价值(质量)会随着数据的使用而变化。
2013年,英国DAMA编制了一份白皮书,描述了数据质量的六个核心维度。
- 完整性:数据存储的比例与潜在的100%的比例。
- 唯一性:没有一个实体实例(事物)会根据该事物的识别方式被记录不止一次。
- 及时性:数据从所需时间点代表现实的程度。
- 有效性:数据符合其定义的语法(格式、类型、范围),则为有效。
- 准确度:数据正确描述被描述的 "现实世界 "对象或事件的程度。
- 一致性:比较事物多种表述与定义的差异
英国DAMA白皮书还描述了对质量有影响的其他特征:
- 可用性(Usability):数据是否可理解、简单、相关、可访问、可维护、可维护,并达到适当的精度水平?
- 时效性问题(超越时效性本身):是否稳定而又能对合法的变更请求做出响应?
- 灵活性:数据是否具有可比性,是否与其他数据兼容?它是否有有用的分组和分类?它是否可以重复使用?是否易于操作?
- 置信度:数据治理、数据保护和数据安全流程是否到位?数据的信誉度如何,是否经过验证或可验证?
- 价值:数据是否有良好的成本/效益案例?它是否得到了最佳的使用?它是否危及人们的安全或隐私,或企业的法律责任?它是否支持或违背了企业形象或企业信息?
数据质量和元数据
数据质量ISO标准
数据质量改进的生命周期
- 在计划(P)阶段,数据质量团队会评估已知问题的范围、影响和优先级,并评估解决这些问题的替代方案。该计划应建立在对问题的根源分析的坚实基础上。根据对问题的原因和影响的了解,可以理解成本/效益,确定优先级,并制定基本的计划来解决这些问题。
- 在做(D)阶段,由数据质量团队牵头解决问题的根本原因,并对数据进行持续监控的计划。对于基于非技术性流程的根本原因,数据质量团队可以与流程负责人合作实施变更。对于需要技术变更的根本原因,数据质量团队应与技术团队合作,确保要求正确执行,确保技术变更不会引入错误。
- 检查(C)阶段涉及到积极监控数据的质量,根据要求进行测量的数据质量。只要数据符合定义的质量阈值,就不需要采取额外的行动。流程将被认为是在可控范围内并满足业务要求。但是,如果数据低于可接受的质量阈值,则必须采取额外行动,使其达到可接受的水平。
- 行动(A)阶段是针对新出现的数据质量问题进行处理和解决的活动。当评估问题的原因并提出解决方案时,周期会重新开始。通过启动新的周期来实现持续改进。
数据质量业务规则类型
- 定义的一致性:确认在整个组织内的流程中,对数据定义的理解是一致的,并正确使用。确认包括计算字段的算法一致性,包括任何时间,或本地约束,以及卷积和状态相互依赖规则。
- 值的存在和记录的完整性:定义缺失值可接受或不可接受的条件的规则。
- 格式符合性:一个或多个模式指定了分配给数据元素的值,如电话号码的格式化标准。
- 值域匹配性:指定一个数据元素的分配值包含在定义的数据值域中,如STATE字段的2字符美国邮政编码。
- 范围一致性:数据元素的分配值必须在定义的数字、词法或时间范围内,如数字范围大于0而小于100。
- 映射一致性:表示分配给一个数据元素的值必须在规定的数值范围内
- 一致性规则:条件性断言,是指根据两个(或多个)属性的实际值来维持两个(或多个)属性之间的关系。
- 准确度验证:将数据值与记录系统或其他验证源(如从供应商处购买的营销数据)中的相应值进行比较,以验证值是否匹配。
- 唯一性验证:指定哪些实体必须具有唯一性表示,以及每个表示的现实世界对象是否只存在一条记录的规则。
- 时效性验证:指明与数据的可访问性和可用性期望相关的特征的规则。
造成数据质量问题的常见原因
- 缺乏领导力造成的数据质量问题
- 数据输入过程造成的问题
- 数据处理功能造成的问题
- 系统设计造成的问题
- 修复问题造成的问题
数据剖析
- 空值数量
- 最大/最小值
- 最大/最小长度
- 各列的值的频率分布
- 数据类型和格式
数据质量和数据处理
4. 活动(重要未完成)
定义高质量的数据
定义数据质量战略
识别关键数据和业务规则
进行初步的数据质量评估
确定可能的改进措施并确定其优先次序
确定数据质量改进目标
5. 工具
6. 技术
预防行动
改正行动
质量检查和审核代码模块
有效的数据质量指标
统计过程控制
根本原因分析
7. 实施指南
准备状态评估/风险评估
组织和文化变革
8. 数据质量和数据治理
治理组织可以通过以下方式加快数据质量计划的工作。
- 确定优先事项
- 确定和协调与应参与各种数据质量相关决定和活动的人员的接触,并协调他们的接触
- 制定和维护数据质量标准
- 报告全企业数据质量的相关衡量标准
- 提供指导,促进工作人员的参与
- 建立知识共享的沟通机制
- 制定和应用数据质量和合规政策
- 监测和报告执行情况
- 分享数据质量检查结果,建立意识,找出改进的机会,达成改进的共识。
- 解决变化和冲突;提供方向
数据质量政策
度量指标
- 投资回报率:关于改进工作的成本与改进数据质量的效益的说明。
- 质量水平:衡量数据集内或各数据集之间的错误或违反要求的数量和百分比。
- 数据质量趋势:质量改进随着时间的推移(即趋势),对照阈值和目标,或每期的质量事故,质量改进情况
- 数据问题管理指标。
o 按数据质量的各个维度分列的问题数
o 每个业务职能的问题及其状况(已解决、未解决、已升级)
o 按优先次序和严重程度分列的问题
o 解决问题的时间 - 服务水平的一致性:涉及的组织单位和负责人员、数据质量评估的项目干预措施、总体流程的一致
性 - 数据质量计划的推出:现状和扩展路线图