1 文章结构脑图
2 基本概念
2.1 数据质量
“数据质量”一词既指高质量数据的相关特征,也指用于衡量或改进数据质量的过程。 <font color=green>P349</font>
数据质量取决于使用数据的场景和数据消费者的需求。 <font color=green>P349</font>
数据质量管理的挑战之一,是与质量相关的期望并不总是已知的。通常,客户可能不清楚自身的质量期望,数据管理人员也不会询问这些需求。然而,如果数据是可靠和可信的,那么数据管理专业人员需要更好地了解客户的质量要求,以及如何衡量数据质量。<font color=green>P349</font>
2.2 关键数据
大多数组织都有大量的数据,但并非所有的数据都同等重要。数据质量管理的一个原则是将<font color=red>改进的重点集中</font>在对组织及其客户<font color=red>最重要的数据上</font>,这样做可以明确项目范围,并使其能够对业务需求产生直接的、可测量的影响。 <font color=green>P349</font>
虽然关键的特定驱动因素因行业而异,但组织间存在共同特征,可根据以下要求评估关键数据: <font color=green>P350</font>
- 监管报告。
- 财务报告。
- 商业政策。
- 持续经营。
- 商业战略,尤其是差异化竞争战略
2.3 数据质量维度
数据质量维度是数据的某个可测量的特性。数据质量维度提供了定义数据质量要求的一组词汇,通过这些维度定义可以评估初始数据质量和持续改进的成效。 <font color=green>P350</font>
数据质量领域的很多杰出学者已经发表了一系列质量维度。这里介绍==三个最具影响力== 的人物。 <font color=green>P350</font>
Strong-Wang框架(1996)侧重于数据消费者对数据的看法,描述了<font color=red>数据质量的4个大类及15个指标</font>: <font color=green>P350</font>
- 内在数据质量。1)准确性。2)客观性。3)可信度。4)信誉度。
- 场景数据质量。1)增值性。2)关联性。3)及时性。4)完整性。5)适量性。
- 表达数据质量。1)可解释性。2)易理解性。3)表达一致性。4)简洁性。
- 访问数据质量。1)可访问性。2)访问安全性。
Thomas Redman在《信息时代的数据质量》将一个数据项定义为“可表示的三元组”:一个实体属性域与值的集合。维度可以与数据的任何组成部分相关联:模型(实体和属性)及其值。Redman还定义了一类用于记录数据项规则的表达维度。在这三大类别中(数据模型、数据值、数据表达),他一共描述了20多个维度: <font color=green>P351</font>
-
数据模型
- 内容。1数据关联性。2获取价值的能力。3定义清晰性。
- 详细程度。1特征描述颗粒度。
-
属性域的精准度
- 构成。1自然性。每个属性在现实世界中应该有一个简单的对应物,且每个属性都应承载一个关于实体的单一事实。2可识别性。每个实体都应能与其他实体区分开来。3同一性。4最小必要冗余性。
- 一致性。1模型各组成部分的语义一致性。2跨实体类型属性的结构一致性。
- 应变性。1健壮性。2灵活性。
- 数据值。1准确性。2完备性。3时效性(Currency)。4一致性。
- 数据表达。1适当性。2可解释性。3可移植性。4格式精确性。5格式灵活性。6表达空值的能力。7有效利用存储。8数据的物理实例与其格式一致。
Larry English在《改善数据仓库和业务信息质量》提出了一套综合指标,分为两大类别:<font color=red>固有特征和实用特征</font>。固有特征与数据使用无关,实用特征是动态的,与数据表达相关,其质量价值依赖数据的用途而不同。<font color=green>P352</font>
固有质量特征。
1)定义的一致性。
2)值域的完备性。
3)有效性或业务规则一致性。
4)数据源的准确性。
5)反映现实的准确性。
6)精确性。
7)非冗余性。
8)冗余或分布数据的等效性。
9)冗余或分布数据的并发性。实用质量特征。
1)可访问性。
2)及时性。
3)语境清晰性。
4)可用性。
5)多源数据的可整合性。
6)适当性或事实完整性
2013年,DAMA UK发布了一份白皮书,描述了数据质量的6个核心维度: <font color=green>P353</font>
- 完备性。存储数据量与潜在数据量的百分比。
- 唯一性。在满足对象识别的基础上不应多次记录实体实例(事物)。
- 及时性。数据从要求的时间点起代表现实的程度。
- 有效性。如数据符合其定义的语法(格式、类型、范围),则数据有效。
- 准确性。数据正确描述所描述的“真实世界”对象或事件的程度。
- 一致性。比较事物多种表述与定义的差异。
DAMA UK白皮书还描述了对质量有影响的其他特性, <font color=green>P353</font>
- 可用性(Usability)。数据是否可理解、简单、相关、可访问、可维护,且达到正确的精度水平?
- 时间问题(Timing Issues)(超出时效性本身)。是否稳定,是否对合法的变更请求做出及时响应?
- 灵活性(Flexibility)。数据是否具有可比性,是否与其他数据有很好的兼容性?是否具备可用的分组和分类?是否能被重用?是否易于操作?
- 置信度(Confidence)。数据治理、数据保护和数据安全等管控是否到位?数据的可信性如何,它是否经验证的或是可验证的?
- 价值(Value)。数据是否有良好的成本/收益实例?是否得到了最佳应用?是否危及人们的安全、隐私或企业的法律责任?它是否支持或无助于建立企业形象或企业信息?
见下图13-2 13-3;
2.4 数据质量和元数据
<font color=red>元数据对于管理数据质量至关重要</font>。数据质量是为了满足预期,而元数据是阐明期望的主要手段。 <font color=green>P356</font>
2.5 数据质量ISO标准
数据质量的国际标准ISO 8000尚在开发完善中,这一标准的建立是为了使复杂数据能够以与应用无关的形式进行交换。
ISO将质量数据定义为“符合规定要求的可移植数据”。 <font color=green>P356</font>
<font color=red>ISO 8000的目的是帮助组织定义什么是符合质量的数据、什么是不符合质量的数据,使他们能够使用标准约束要求符合质量的数据,并检核他们已经收到了符合同一质量标准的数据。当遵循标准时,就可以通过计算机程序确认数据是否已经满足需求。</font>
ISO 8000第61部分“信息和数据质量管理过程参考模型”正在开发中。该标准描述数据质量管理的结构和组织,包括: <font color=green>P356</font>
1)数据质量规划。
2)数据质量控制。
3)数据质量保证。
4)数据质量改进。
2.6 数据质量改进生命周期
数据质量改进的常用方法,是戴明环的一个版本。基于科学的方法,戴明环是一个被称为“计划-执行-检查-处理”的问题解决模型。 <font color=green>P357</font>
- 计划(Plan)阶段。数据质量团队评估已知问题的范围、影响和优先级,并评估解决这些问题的备选方案。这一阶段应该建立在分析问题根源的坚实基础上,从问题产生的原因和影响的角度了解成本/效益,确定优先顺序,并制订基本计划以解决这些问题。
- 执行(Do)阶段。数据质量团队负责努力解决引起问题的根本原因,并做出对持续监控数据的计划。
- 检查(Check)阶段。包括积极监控按要求测量的数据质量。阈值。
- 处理(Act)阶段。指处理和解决新出现的数据质量问题的活动。
戴明环新周期开始于: <font color=green>P358</font>
1现有测量值低于阈值。2新数据集正在调查中。3对现有数据集提出新的 数据质量要求。4业务规则、标准或期望变更。
2.7 数据质量业务规则类型
业务规则描述业务应该如何在内部运行,以便成功地与外部世界保持一致。数据质量业务规则描述了组织内有用数据和可用数据的存在形式。 <font color=green>P358</font>
常见的业务规则类型有: <font color=green>P358</font>
1)定义一致性。2)数值存在和记录完备性。定义数值缺失的情况是否可接受的规则。3)格式符合性。4)值域匹配性。5)范围一致性。6)映射一致性。表示分配给数据元素的值,必须对应于映射到其他等效对应值域中的选择的值。7)一致性规则。指根据这些属性的实际值,在两个(或多个)属性之间关系的条件判定。8)准确性验证。9)唯一性验证。10)及时性验证。表明与数据可访问性和可用性预期相关特征的规则。
其他类型的规则可能涉及应用于数据实例集合的聚合函数。聚合检查的示例包括: <font color=green>P359</font>
- 验证文件中记录数量的合理性。这需要基于一段时间内的统计量,以得到趋势信息。
- 验证从一组交易中计算出的平均金额的合理性。这需要建立比较阈值,并基于一段时间内的统计数据。
- 验证指定时间段内交易数量的预期差异。这需要基于一段时间内的统计数据,并通过它们来建立阈值。
2.8 数据质量问题的常见原因
数据质量问题在数据生命周期的任何节点都可能出现。在调查根本原因时,分析师应该寻找潜在的原因,如数据输入、数据处理、系统设计,以及自动化流程中的手动干预问题。 <font color=green>P359</font>
见下图13-5
- 缺乏领导力导致的问题。 <font color=green>P359</font>
<font color=red>常识和研究表明,许多数据质量问题是由缺乏对高质量数据的组织承诺造成的,而缺乏组织承诺本身就是在治理和管理的形式上缺乏领导力。</font>
领导层缺乏认可意味着组织内部缺乏将数据作为资产并进行质量管理的承诺。
有效管理数据质量的障碍包括:
1)领导和员工缺乏意识。
2)缺乏治理。
3)缺乏领导力和管理能力。
4)难以证明改进的合理性。
5)测量价值的工具不合适或不起作用。
- 数据输入过程引起的问题。 <font color=green>P361</font>
<font color=red>1)数据输入接口问题。2)列表条目放置。3)字段重载。 4)培训问题。5)业务流程的变更。6)业务流程执行混乱</font>。
- 数据处理功能引起的问题。<font color=green>P361</font>
<font color=red>1)有关数据源的错误假设。2)过时的业务规则。3)变更的数据结构</font>。
- 系统设计引起的问题。<font color=green>P361</font>
<font color=red>1)未能执行参照完整性</font>。如果没有强制执行参照完整性,可能会导致:1产生破坏唯一性约束的重复 数据。2既可以包含,又可以排除在某些报表中的孤儿数据,导致同样的计算生成多个值。 3由于参照完整性要求已还原或更改,无法升级。4由于丢失的数据被分配为默认值而导致 数据准确性。
<font color=red> 2)未执行唯一性约束。
3)编码不准确和分歧。
4)数据模型不准确。
5)字段重载。
6)时间数据不匹配。
7)主数据管理薄弱。
8)数据复制</font>。有害的数据复制问题主要有:1单源-多个本地实例。2多源-单一本地实例。
- 解决问题引起的问题。<font color=green>P362</font>
2.9 数据剖析
数据剖析(Data Profiling) 是一种用于检查数据和评估质量的数据分析形式。数据剖析使用==统计技术==来发现数据集合的真实结构、内容和质量。剖析引擎生成统计信息,分析人员可以使用这些统计信息识别数据内容和结构中的模式。 <font color=green>P362</font>
==例如: <font color=green>P363</font>
1)空值数。标识空值存在,并检查是否允许空值。
2)最大/最小值。识别异常值,如负值。
3)最大/最小长度。确定具有特定长度要求的字段的异常值或无效值。
4)单个列值的频率分布。能够评估合理性(如交易的国家代码分布、频繁或不经常发生的值的检查,以及用默认值填充的记录百分比)。
5)数据类型和格式。识别不符合格式要求的水平,以及意外格式识别(如小数位数、嵌入空格、样本值)。==
2.10 数据质量和数据处理
虽然数据质量改进工作的重点是防止错误,但也可以通过某种形式的数据处理来提升数据质量。 <font color=green>P363</font>
数据清理或数据清洗。 <font color=green>P363</font>
数据清理或数据清洗,可以通过数据转换使其符合数据标准和域规则。清理包括检测和纠正数据错误,使数据质量达到可接受的水平。
** 数据清理需求可以通过以下方式解决: **
<font color=red>1)实施控制以防止数据输入错误。
2)纠正源系统中的数据。
3)改进数据录入的业务流程。</font>
在某些情况下,通过中游系统做出持续修正是必要的,因为在中游系统中重新处理数据比任何其他替代方案的代价都要小。-
数据增强。 <font color=green>P363</font>
数据增强或丰富是 <font color=red>给数据集添加属性以提高其质量和可用性的过程</font>。
数据增强的示例包括:- 时间戳。有助于跟踪历史数据事件。定位问题的时间范围。
- 审计数据。审计可以记录数据血缘,这对于历史跟踪和验证很重要。
- 参考词汇表。在定制化的业务语境中,特定于业务的术语、本体和词汇表增强了数据理解和控制。
- 语境信息。上下文语境信息,以供审查和分析。
- 地理信息。通过地址标准化和地理编码增强地理信息。
- 人口统计信息。可以通过人口统计信息增强客户数据,如年龄、婚姻状况、性别、收入或民族编码。
- 心理信息。用于按特定行为、习惯或偏好对目标人群进行细分的数据,如产品和品牌偏好、组织成员资格、休闲活动、 通勤交通方式、购物时间偏好等。
- 评估信息。针对资产评估、库存和销售数据等使用这种增强方式。
- 数据解析和格式化。 <font color=green>P364</font>
数据解析是<font color=red>使用预先确定的规则来解释其内容或值的分析过程</font>。首先,数据分析人员定义一组模式;然后,把这些模式录入用于区分有效和无效的数据值的规则引擎内,规则引擎匹配特定模式触发操作。
数据质量工具解析符合这些模式的任何数据值,然后将其转换为单一的标准化形式,从而简化评估、相似性分析和补救过程。基于模式的解析可以自动识别,并促成有意义的值组件的标准化。
例如,
思考一下符合编码习惯但格式不同的电话号码。有些有数字,有些有字母字符,都使用不同的特殊字符来分隔。人们可以识别出每一个电话号码,但是为了确定这些数字是否准确(可能通过将其与主客户目录进行比较),或者为了调查每个供应商是否存在重复的号码, 必须将这些值解析为不同的组成段(区域代码、交换局代码和终端代码),然后转换为标准格式。
另一个很好的例子是客户名称,因为名称可以用数千种不同的形式表示。一个好的标准化工具能够把客户名称解析为不同的组成部分,如名、中名、姓、首字母、头衔、世代称呼,再将这些组成部分重新排列成其他数据服务能够操作的规范表示。
- 数据转换与标准化。 <font color=green>P365</font>
通过触发数据规则将数据转换为目标体系结构可读取的格式。然而,可读取并不总是意味着可接受。规则直接在数据集成流中创建,或依赖于可选的嵌入式技术,或可从工具中访问的其他技术上进行创建。
通过将原始格式和模式中的数据值映射到目标表述形式来指导基于规则的转换。模式中经解析的组件将按照知识库中的规则进行重新排列、更正或任何更改。
3 语境关系图
3.1 定义
数据管理能力包括为各类应用设计数据模型、安全存储和访问数据、适当地共享数据、从数据中获得知识,以及保障满足业务需求的能力等。但实现数据价值的前提是数据本身是可靠和可信的,换句话说,数据应是高质量的。 <font color=green>P346</font>
导致低质量数据产生的因素包括: <font color=green>P346</font>
组织缺乏对低质量数据影响的理解、缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。
所有数据管理的原则都应有助于提高数据质量,支持组织使用高质量数据应是所有数据管理原则的目标。 <font color=green>P346</font>
没有一个组织拥有完美的业务流程、完美的技术流程或完美的数据管理实践,<font color=red>所有组织都会遇到与数据质量相关的问题</font>。相比那些不开展数据质量管理的组织,实施正式数据质量管理的组织碰到的问题会更少。 <font color=green>P346</font>
由于管理数据质量涉及数据生命周期管理,因此数据质量团队还将承担与数据使用相关的操作责任。==例如,报告数据质量水平,参与数据问题的分析、问题的量化和优先级排序。==数据质量取决于所有与数据交互的人,而不仅仅是数据管理专业人员。 <font color=green>P346</font>
与数据治理和整体数据管理一样,数据质量管理不是一个项目,而是一项持续性工作。包括项目和维护工作,以及承诺进行沟通和培训。最重要的是,数据质量改进取得长期成功取决于组织文化的改变及质量观念的建立。 <font color=green>P346</font>
3.2 目标
<font color=red>数据质量管理的目标:</font> <font color=green>P348</font>
- 根据数据消费者的需求,开发一种受管理的方法,使<font color=red>数据适合要求</font>。
- <font color=red>定义数据质量控制的标准和规范</font>,并作为整个数据生命周期的一部分。
- <font color=red>定义和实施测量</font>、 监控和报告数据质量水平的过程。
<font color=red>数据质量管理的原则:</font> <font color=green>P348</font>
- 重要性。应关注对企业及其客户最重要的数据, 改进的优先顺序应根据数据的重要性以及数据不正确时的风险水平来判定。。
- 全生命周期管理。应覆盖从创建或采购直至处置的数据全生命周期,包括其在系统内部和系统之间流转时的数据管理。
- 预防。重点应放在预防数据错误和降低数据可用性等情形上,不应放在简单的纠正记录上。
- 根因修正。不只是纠正错误,还需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决。
- 治理。 数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境。
- 标准驱动。对于可量化的数据质量需求应该以可测量的标准和期望的形式来定义。
- 客观测量和透明度。数据质量水平需要得到客观、一致的测量。
- 嵌入业务流程。业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准。
- 系统强制执行。系统所有者必须让系统强制执行数据质量要求。
- 与服务水平关联。数据质量报告和问题管理应纳入服务水平协议(SLA)。
3.3 业务驱动因素
业务驱动因素: <font color=green>P348</font>
- 提高组织数据价值和数据利用的机会。
- 降低低质量数据导致的风险和成本。
- 提高组织效率和生产力。
- 保护和提高组织的声誉。
许多直接成本均与低质量数据有关,例如: <font color=green>P348</font>
- 无法正确开具发票。
- 增加客服电话量,降低解决问题的能力。
- 因错失商业机会造成收入损失。
- 影响并购后的整合进展。
- 增加受欺诈的风险。
- 由错误数据驱动的错误业务决策造成损失。
- 因缺乏良好信誉而导致业务损失。
高质量数据本身并不是目的,它只是组织获取成功的一种手段。
3.4 输入
3.5 活动
【活动 1】定义高质量数据
定义它:“数据必须是正确的”“我们需要准确的数据”。根据一组问题,可以了解当前状态,并评估组织对数据质量改进的准备情况。 <font color=green>P365</font>
==评估7个问题:== <font color=green>P365</font>
- “高质量数据”是什么意思?
- 低质量数据对业务运营和战略的影响是什么?
- 更高质量的数据如何赋能业务战略?
- 数据质量改进需要哪些优先事项的推动?
- 对低质量数据的容忍度是多少?
- 为支持数据质量改进而实施的治理是什么?
- 配套实施的治理结构是什么?
==【评估组织对数据质量改进的准备情况】==
要全面了解组织中数据质量的当前状态,需要从不同的角度来**探讨5个问题: ** <font color=green>P365</font>
- 了解业务战略和目标。
- 与利益相关方面谈,以识别痛点、风险和业务驱动因素。
- 通过资料收集和其他剖析形式直接评估数据。
- 记录业务流程中的数据依赖关系。
- 记录业务流程的技术架构和系统支持。
==【了解组织数据质量的当前状态】==
【活动 2】定义数据质量战略
数据质量优先级必须与业务战略一致。 <font color=green>P366</font>
一个框架应包括以下方法: <font color=green>P366</font>
- 了解并优先考虑<font color=red>业务需求</font>。
- 确定满足业务需求的<font color=red>关键数据</font>。
- 根据业务需求定义<font color=red>业务规则和数据质量标准</font>。
- 根据预期<font color=red>评估数据</font>。
- 分享调查结果,并从利益相关方那里获得<font color=red>反馈</font>。
- 优先处理和<font color=red>管理问题</font>。
- 确定并优先考虑<font color=red>改进机会</font>。
- 测量、监控和<font color=red>报告数据质量</font>。
- 管理通过数据质量流程生成的<font color=red>元数据</font>。
- 将数据质量控制<font color=red>集成到</font>业务和技术流程中
【活动 3】识别关键数据和业务规则
数据质量管理工作应首先关注组织中最重要的数据:如果数据质量更高,将为组织及其客户提供更多的价值。可以根据监管要求、财务价值和对客户的直接影响等因素对数据进行优先级排序。 <font color=red>数据质量改进工作从主数据开始。</font> <font color=green>P366</font>
在确定关键数据之后,数据质量分析人员需要识别能描述或暗示有关数据质量特征要求的业务规则。 <font color=green>P366</font>
识别能描述或暗示有关数据质量特征要求的业务规则。大多数业务规则都与如何收集或创建数据相关,但数据质量度量则围绕数据是否被适当使用进行。 <font color=green>P366</font>
分析师通过质量指标描述了规则(如字段x是强制的,必须有值)和结果(实际上,该字段3%的记录未被填充,是空的;数据完整性仅为97%)。 <font color=green>P366</font>
【活动 4】执行初始数据质量评估
一旦确定最关键的业务需求和支持它们的数据,数据质量评估的最重要部分就是实际查看数据、查询数据,以了解数据内容和关系,以及将实际数据与规则和期望进行比较。 <font color=green>P367</font>
初始数据质量评估的目标是了解数据,以便定义可操作的改进计划。通常最好从聚焦一项较小工作开始——一个基本的概念证明(Proof of Concept,POC)——来演示改进过程是如何工作的。步骤包括: <font color=green>P367</font>
- <font color=red>定义评估的目标</font>。这些目标将推动工作进展。
- <font color=red>确定要评估的数据</font>。重点应放在一个小的数据集,甚至一个数据元素,或一个特定的数据质量问题上。
- <font color=red>识别数据的用途和数据的使用者</font>。
- 利用待评估的数据<font color=red>识别已知风险</font>,包括数据问题对组织过程的潜在影响。
- 根据已知和建议的规则<font color=red>检查数据</font>。
- <font color=red>记录不一致</font>的级别和问题类型。
- 根据初步发现进行额外的<font color=red>深入分析</font>,以便:
==1量化结果。
2根据业务影响优化问题。
3提出关于数据问题根本原因的假设。== - 与数据管理专员、领域专家和数据消费者会面,<font color=red>确认问题和优先级</font>。
- 使用调查结果作为<font color=red>规划</font>的基础。
==1解决问题,最好是找到问题的根本原因。
2控制和改进处理流程,以防止问题重复发生。
3持续控制和汇报。==
【活动5】识别改进方向并确定优先排序
需要识别潜在的改进措施,并确定其优先顺序。识别可以通过==对较大数据集进行全面的数据分析==来完成,以了解现有问题的广度;也可以通过其他方式实现,如就数据的影响问题与利益相关方进行沟通,并跟踪分析这些问题的业务影响。最终,需要结合数据分析人员以及利益相关方的讨论排定最终优先顺序。 <font color=green>P368</font>
步骤: <font color=red>定义目标、了解数据使用和风险,根据规则衡量、记录并与领域专家确认结果, 利用这些信息确定补救和改进工作的优先级</font>。 <font color=green>P368</font>
大规模的数据剖析工作,仍应集中在最关键的数据 上。确定影响需要数据链上的利益相关方的介入。<font color=green>P368</font>
【活动6】定义数据质量改进目标
从简单的补救(如纠正记录中的错误) 到根本原因的改进。补救和改进计划应考虑可以快速实现的问题(可以立即以低成本解决问题)和长期的战略性变化。这些计划的战略重点应是解决问题的根本原因,并建立问题预防机制。<font color=green>P368</font>
阻碍因素: 系统限制、数据龄期、正在进行的使用有问题数据的项目、数据环境的总体复杂性、文化变革阻力。为了防止这些限制阻碍质量改进工作的进行,须根据对数据质量改进带来业务价值的一致性量化,设定具体的、可实现的目标。<font color=green>P368</font>
改善数据必须有积极的投资回报,没有人关心字段完整性的级别,除非有业务影响。当发现问题时。<font color=green>P369</font>
根据以下内容确定改进的投资回报率: <font color=green>P369</font>
- 受影响数据的关键性(重要性排序)。
- 受影响的数据量。
- 数据的龄期。
- 受问题影响的业务流程数量和类型。
- 受问题影响的消费者、客户、供应商或员工数量。
- 与问题相关的风险。
- 纠正根本原因的成本。
- 潜在的工作成本。
【活动7】 开发和部署数据质量操作
为了支持这些活动, 数据质量分析人员和数据管理专员也需要参与记录数据标准和业务规则、为供应商建立数据质量要求等活动。 <font color=green>P369</font>
1. 管理数据质量规则
预先定义规则: <font color=green>P369</font>
1)对数据质量特征设定明确的<font color=red>期望</font>。
2)提供防止引入数据问题的系统编辑和<font color=red>控制要求</font>。
3)向供应商和其他外部方提供<font color=red>数据质量要求</font>。
4)为正在进行的数据质量测量和报告<font color=red>创建基础</font>。
数据质量规则和标准是元数据的一种关键形式。为了提高效率,需要将它们作为元数据进行管理。<font color=green>P369</font>
规则应该是: <font color=green>P369</font>
1)<font color=red>记录的一致性</font>。
2)<font color=red>根据数据质量维度定义</font>。质量维度帮助人们了解正在测量的内容。维度的一致应用将有助于度量和管理问题的过程。
3)<font color=red>与业务影响挂钩</font>。 不应采取与业务流程无关的度量!!!
4)<font color=red>数据分析支持</font>。数据质量分析人员不应猜测规则, 而应根据实际数据测试规则。
5)<font color=red>由领域专家确认</font>。当主题专家确认或解释数据分析的结果时, 知识就产生了。
6)<font color=red>所有数据消费者都可以访问</font>。
2. 测量和监控数据质量
业务数据质量管理过程取决于测量和监控数据质量的能力。进行业务数据质量度量的原因有两方面,它们同等重要: <font color=green>P370</font>
1)向数据消费者通报质量水平。
2)管理业务或技术流程,改变引入的变更风险。
应根据数据评估和根本原因分析(简称根因分析)的结果制定测量方法。旨在通知数据消费者度量将侧重于关键数据元素及其关系,如果这些元素和关系不健全,将直接影响业务流程。 <font color=green>P370</font>
应将从过去的问题中获得的知识应用于风险管理。 <font color=green>P370</font>
测量结果可以分为两个层次进行描述: <font color=red>执行单个规则相关的详细信息和规则汇总的总体结果</font>。
<font color=green>P370</font>
度量公式: 有效数据质量=(总测试数-异常数)/总测试数;无效数据质量=异常数/总测试数。见 下面的公式。<font color=green>P370</font>
数据质量规则为数据质量的操作管理提供了基础。通过将控制和度量过程纳入信息处理流程进行持续的监控,可以通过流程或批处理的方式对数据质量规则的一致性进行自动监控,在三个粒度级别上进行度量:<font color=red>数据元素值、数据实例或记录、数据集</font>。见下表13-6 13-7 <font color=green>P371</font>
3. 制定管理数据问题的操作过程
操作步骤: <font color=green>P373</font>
诊断问题。目的是审查数据质量事件的症状,跟踪相关数据的血缘,确定问题及其来源,并查明问题的根本原因。
1)在适当的信息处理流程下查看数据问题,并隔离出现缺陷过程的位置。
2)评估是否存在任何可能导致错误的环境变化。
3)评估是否有其他过程问题导致了数据 质量事件。
4)确定外部数据是否存在影响数据质量的问题。制订补救方案。根据诊断结果,评估解决问题的备选方案。可能包括:
1)纠正非技术性根本原因,如缺乏培训、缺乏领导支持、责任和所有权不明确等。
2)修改系统以消除技术类的根本原因。
3)制定控制措施以防止问题发生。
4)引入额外的检查和监测。
5)直接修正有缺陷的数据。
6)基于变更的成本和影响对比 更正后的数据的价值分析,不采取任何操作。解决问题。确定解决问题的方案选项后,数据质量团队必须与业务数据的所有者协商,以确定解决问题的最佳方法。该过程应详细说明分析人员如何:
1)评估替代方案的相对成本和优点。
2)推荐计划中的一个备选方案。
3)提供开发和实施该解决方案的计划。
4)实施该解决方案。
进行有效的跟踪需要做到以下几点: <font color=green>P374</font>
- <font color=red>标准化数据质量问题和活动</font>。
- <font color=red>提供数据问题的分配过程</font>。操作过程指导分析人员将数据质量事件分配给个人进行诊断,并提供解决方案。推荐那些具有特定专业领域知识的人员推动事件跟踪系统内的分配过程。
- <font color=red>管理问题升级过程</font>。数据质量问题处理需要根据问题的影响、持续时间或紧急程度制定明确的升级机制,明确规定数据质量服务级别协议(SLA)中的升级顺序。
- <font color=red>管理数据质量解决方案工作流</font>。数据质量服务水平协议 (SLA)规定了监控、控制和解决的目标,所有这些定义了操作工作流的集合。事件跟踪系统可以支持工作流管理,以跟踪问题诊断和解决的进度。
4. 制定数据质量服务水平协议
数据质量服务水平协议(SLA)规定了组织对每个系统中数据质量问题进行响应和补救的期望。
数据质量SLA中定义的数据质量控制操作包括: <font color=green>P374</font>
- 协议涵盖的<font color=red>数据元素</font>。
- 与数据缺陷相关的<font color=red>业务影响</font>。
- 与每个数据元素相关的<font color=red>数据质量指标</font>。
- 从每个已确定指标的数据元素出发,识别数据价值链上每个应用程序系统中的<font color=red>质量期望</font>。
- 测量这些期望的<font color=red>方法</font>。
- 每次测量的<font color=red>可接受性阈值</font>。
- 如果不满足可接受性阈值,应<font color=red>通知数据管理专员</font>。
- 预期解决或补救问题的时间和<font color=red>截止日期</font>。
- <font color=red>升级策略</font>,以及可能的奖励和惩罚。
5. 编写数据质量报告
报告应着重于: <font color=green>P375</font>
- <font color=red>数据质量评分卡</font>。可从高级别的视角提供与各种指标相关的分数,并在既定的阈值内向组织的不同层级报告。
- <font color=red>数据质量趋势</font>。随时间显示数据质量是怎样被测量的,以及数据质量趋势是向上还是向下。
- <font color=red>服务水平协议(SLA)指标</font>。例如,运营数据质量人员是否及时诊断和响应数据质量事件。
- <font color=red>数据质量问题管理</font>。监控问题和解决方案的状态。
- <font color=red>数据质量团队与治理政策的一致性</font>。
- <font color=red>IT和业务团队对数据质量政策的一致性</font>。
- <font color=red>改善项目带来的积极影响</font>。
3.6 交付成果
3.7 技术驱动因素
3.8 方法
【方法1】 预防措施
创建高质量数据的最佳方法是防止低质量数据进入组织。预防措施可以阻止已知错误的发生,在事后对数据进行检查并不能提高其质量。 <font color=green>P376</font>
预防方法包括: <font color=green>P377</font>
- 建立数据输入控制。
- 培训数据生产者。
- 定义和执行规则。
- 要求数据供应商提供高质量数据。
- 实施数据治理和管理制度。
- 制定正式的变更控制。
【方法2】纠正措施
问题发生并被检测到之后,实施纠正措施。 <font color=green>P377</font>
执行数据修正一般有三种方法: <font color=green>P377</font>
- 自动修正。
- 人工检查修正。
- 人工修正。
【方法3】质量检查和审核代码模块
创建可共享、可链接和可重用的代码模块,开发人员可以从存储库中拿到它们,重复执行数据质量检查和审计过程。 <font color=green>P378</font>
这些模块简化了维护过程。精心设计的代码块可以防止许多数据质量问题。 <font color=green>P378</font>
【方法4】有效的数据质量指标
管理数据质量的一个重要组成部分是开发度量指标,以告知数据消费者对其数据使用非常重要的质量特征。 <font color=green>P378</font>
在制定度量标准时,数据质量分析人员应考虑以下特征: <font color=green>P378</font>
- 可度量性。
- 业务相关性。
- 可接受性。
- 问责/管理制度。
- 可控制性。
- 趋势分析。
【方法5】统计过程控制
统计过程控制(SPC)是一种通过分析过程输入、输出或步骤的变化测量值来管理过程的方法。该技术于20世纪20年代首先在制造业发展起来,后应用到其他行业,如六西格玛改进方法和数据质量管理。 <font color=green>P379</font>
SPC使用的主要工具是控制图,它是一个时间序列图, 包括平均值的中心线(集中趋势的度量),以及描述测算的上下控制界限(围绕中心值的可变性)。在一个稳定的过程中,超出控制范围的度量结果表明了异常状况的存在。 见下图13-8 <font color=green>P379</font>
将SPC应用于控制、发现和提升,第一步是对过程进行度量,以识别和消除特殊原因。该活动建立对过程状态的控制。第二步是尽可能早地发现异常变化,因为早期发现问题简化了对问题根源的调查过程。对过程的度量也有助于减少常见变化原因的不必要影响,从而提高效率。
【方法6】根本原因分析
根本原因分析 是一个理解导致问题发生的因素及其作用原理的过程。其目的是识别潜在的条件,这些条件一旦消除,问题也将消失。 <font color=green>P379</font>
常见的根因分析技术包括帕累托分析(80/20规则)、鱼骨图分析、跟踪和追踪、过程分析以及五个为什么等(McGilvray,2008)。 <font color=green>P379</font>
3.9 工具
工具: 数据剖析工具。数据查询工具。建模和 ETL 工具。数据质量规则模板。元数据存储库。
3.10 度量指标
数据质量团队的大部分工作将集中于质量的度量和报告上。数据质量的高阶指标包括: <font color=green>P383</font>
- <font color=red>投资回报</font>。关于改进工作的成本与改进数据质量的好处的声明。
- <font color=red>质量水平</font>。测量一个数据集内或多个数据集之间的错误或不满足甚至违反需求情况的数量和比率。
- <font color=red>数据质量趋势</font>。随着时间的推移(趋势),针对阈值和目标的质量改进,或各阶段的质量事件。
- <font color=red>数据问题管理指标</font>。
1按数据质量指标对问题分类与计数。
2各业务职能部门及其问题状态(已解决、未解决、已升级)。
3按优先级和严重程度对问题排序。
4解决问题的时间。 - <font color=red>服务水平的一致性</font>。包括负责人员在内的组织单位对数据质量评估项目干预过程的一致性。
- <font color=red>数据质量计划示意图</font>。现状和扩展路线图。
4 实施指南
通常情况下,混合方法最有效——自上而下持续地提供支持和资源,自下而上地发现实际存在的问题并逐步解决。 <font color=green>P380</font>
大多数数据质量项目的实施都需要计划: <font color=green>P380</font>
- 有关数据价值和低质量数据成本的指标。
- IT/业务交 互的操作模型。业务人员了解数据的意义及其重要性,IT 数据管理人员了解数据存储的位置和方式。
- 项目执行方式的变化。
- 对业务流程的更改。
- 为补救和改进项目提供资金。
- 为数据质量运营提供资金。
就绪评估/风险评估。 <font color=green>P381</font>
组织采用数据质量的实践准备情况,可以通过以下特征进行评估:
- 管理层承诺将数据作为战略资产进行管理。
- 组织对数据质量的当前理解。障碍和痛点。
- 数据的实际情况。以客观的方式描述导致痛点的数据情况是改进数据的第一步。量化来度量和描述数据。
- 与数据创建、处理或使用相关的风险。
- 可扩展数据质量监控的文化和技术就绪。数据质量可能受到业务和技术流程的负面影响。
组织与文化变革。 <font color=green>P382</font>
数据质量不是通过一些工具和口号就能改进的,而是要通过帮助员工和利益相关方树立不断行动的思维观念,同时要始终考虑数据质量和业务与客户的需求来改进。让一个组织认真对待数据质量,通常需要进行重大的文化变革。这种变革需要领导者的远见和领导力。
如果要让员工生成更高质量的数据并以确保质量的方式管理数据,他们需要以不同的方式思考和行动,这需要培训和强化训练。
培训应着重于: <font color=green>P382</font>
- 导致数据问题的常见原因。
- 组织数据生态系统中的关系以及为什么提高数据质量需要全局方法。
- 糟糕数据造成的后果。
- 持续改进的必要性(为什么改进不是一次性的)。
- 要“数据语言化”,阐述数据对组织战略与成功、监管报告和客户满意度的影响。
5 数据质量治理
将数据质量工作纳入整体治理工作,使数据质量方案团队能够与一系列利益相关方和推动者合作。 <font color=green>P382</font>
- 风险与安全人员可以帮助识别与数据相关的组织弱点。
- 业务流程工程和培训人员,可以帮助团队实施流程改进。
- 业务和运营数据专员以及数据所有者,他们可以识别关键数据、定义标准和质量期望,并优先处理数据问题。
治理组织可以通过以下方式加快数据质量方案的工作: <font color=green>P382</font>
- 设定优先级。
- 确定和协调有权参与各种数据质量相关决定和相关活动的人。
- 制定和维护数据质量标准。
- 报告企业范围内数据质量的相关测量。
- 提供有助于员工参与的指导。
- 建立知识共享的沟通机制。
- 制定和应用数据质量和合规政策。
- 监控和报告绩效。
- 共享数据质量检查结果,以提高认识,确定改进机会,并就改进达成共识。
- 解决变化和冲突,提供方向性指导。
数据质量制度内容应包括: <font color=green>P383</font>
- 制度的目的、范围和适用性。
- 术语定义。
- 数据质量团队的职责。
- 其他利益相关方的责任。
- 报告。
- 策略的实施,包括与之相关的风险、预防措施、合规性、数据保护和数据安全性等。
6 关键架构图
-
图13-1 数据质量语境关系图
-
图13-2 常见的数据质量维度
-
图13-3 数据质量维度之间的关系
-
图13-4 戴明环
-
图13-5 将信息作为业务资产进行管理的障碍和根本原因
-
表13-6 数据质量值指标例子
-
表13-7 数据质量监控技术
-
图13-8 统计控制过程控制图