1. 概述
数据质量是指在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。数据质量评估是指对数据的质量进行系统性检查和评价的过程,通常围绕规范性、完整性、准确性、一致性、时效性、可访问性开展评估。通过质量评估,可以识别数据中的问题和不足,从而采取相应的措施提升数据质量,保障数据适合其预期的用途。
2. 实施价值
数据质量的高低直接关系到数据潜能的发挥,它决定了数据能否在商业决策、市场预测、产品开发等领域发挥应有的价值。通过数据质量评估,能够充分把握组织内部的数据质量状况的“全景图”,识别高质量数据使之能更高效地对外交易,定位低质量的数据并制定相应的质量提升方案,降低由数据质量问题带来的负面影响。数据质量评估的价值有以下几点:
(1)监管并提升企业数据质量。通过全面的数据质量评估,实现公司数据质量情况的全方位把握和持续监管。一方面,可以识别企业内部的高质量数据,更高效地将高质量数据对外进行交易。另一方面,对于低质量的数据,可以快速定位数据质量问题,并给出相应质量提升方案和实施流程,提升整理数据治理水平,降低由数据问题带来的风险。
(2)提高决策质量。通过数据质量评估,从完整性、准确性和一致性等维度去改善企业内部数据的整体质量。以高质量的数据为基础支撑,提升分析结果的准确性,保障企业决策基于准确和完整的信息,提高企业决策效能,有力支撑企业运营。
(3)提升数据资产价值。数据质量评估为数据治理提供依据和技术支持,为数据价值评估和数据资源入表等提供必要基础。根据数据质量评估结果,分析数据治理过程中存在的不足,并提出相应的改进措施,完善数据收集、处理和存储等操作流程。确保准确掌握数据质量有关情况,为数据价值评估和数据资源入表提供参考,保障数据经济效益衡量不脱离实际情况,数据资源入表具备价值和意义。
3. 实施路径
数据质量评估主要参考的文件有:
根据《信息技术数据质量评价指标》国家标准,数据质量评价指标体系按照以下6个维度进行分析定义:
①规范性:数据符合数据标准、数据模型、元数据、业务规则、权威参考数据或安全规范的度量;
②完整性:包括数据元素的完整性和数据记录的完整性;
③准确性:数据准确性的评价维度包括数据内容的正确性、数据格式的合规性、数据重复率、数据唯一性和脏数据出现率;
④一致性:包括相同数据一致性和关联数据一致性;
⑤时效性:包括基于时间段的正确性、基于时间点的及时性和时序性;
⑥可访问性:数据在需要时可以获取,在设定的有效生存周期内可以使用。
如图3-4所示,数据质量评估的实施流程参考如下:
(1)构建质量管理组织。通常由数据分析师、IT专家、业务代表以及管理层组成,主要负责制定数据质量标准、监督数据质量评估流程的实施,并确保所有相关方都遵循既定的流程。
(2)建立数据规范。数据规范是一套明确的规则和标准,用于指导数据的收集、存储和使用。数据规范应涵盖数据的定义、类型、格式、结构、处理流程以及安全要求等方面。
(3)确定评价指标。基于数据质量评价指标体系,根据实际的业务需求和数据使用场景,确定数据质量的评价指标与规则,以确保它们能够全面反映数据的质量状况。
(4)实施质量评价。根据数据质量的评价指标,对数据进行质量评估,包括异常检测、数据交叉验证等方式,最终形成相应的数据质量评估报告。
(5)数据质量提升。根据数据质量评估的结果,制定并实施数据质量提升计划,包括改进数据收集流程、更新数据存储系统、培训数据录入人员、优化数据处理算法等措施。数据质量提升是一个持续的过程,需要定期评估和调整以应对不断变化的业务需求数据环境。
(6)数据交付使用。数据交付使用是数据质量评估流程的最终目标,在确保数据满足既定的质量标准后,数据才能被交付给最终用户使用。在数据交付使用前,还应确保用户了解数据的使用方法和限制,以充分发挥数据的价值。