1. 数据质量的重要性
大数据的概念正在进一步渗透到各个行业与领域当中,随着企业业务增长和规模扩大,以及伴随着信息技术和相关基础设施的不断完善,在短短的几年内,数据已经呈现了爆发式的增长,多数传统企业也开始走上了数字化转型的道路。数据中蕴藏的商业价值也逐渐被人们挖掘出来:客户群体细分提供个性化服务和精准营销、数据驱动创新促进发掘新的需求和商业模式、数据互联互通打破了组织边界提高管理效率和产业效率,以及降低服务成本。
伴随着数据量的增长,与大数据相关的技术也在不断成熟,包括数据采集、数据存储、数据传输、数据处理、数据挖掘等一系列环节。技术更迭带来的实施成本降低,越来越多的企业开始利用数据创新业务,提供数据服务,由原来的业务驱动渐渐转型数据驱动业务的增长。在最近一年的时间里,我接触到了不同行业的客户,包括物流、汽车、教育、金融等,这些企业都已经开始在实施大数据项目。可以预见的是,这类的项目将会越来越多地出现在各个行业当中。
大数据类的项目有个特点,那就是都是以数据为核心。数据将作为产生业务价值和实现业务目标的基石,那么数据的质量就变成了这类项目的一个极其重要的因素。有些项目在初期由于并没有考虑数据质量的因素,导致了项目实施后期才发现,由于数据质量问题所带来的项目失败的风险。在项目的各个环节当中,我们都应当关注数据质量的管理。
2. 数据质量是什么
在《数据质量管理的一些思考》一文中,我提到了对于质量的定义。那么对于数据质量来说,我们又该如何定义它。不妨来参考一下对于软件质量的定义--“软件质量是软件与明确地叙述的功能和性能需求、文档中明确描述的开发标准以及任何专业开发的软件产品都应该具有的隐含特征相一致的程度”。那么这个定义同样适用于数据质量。上述定义从三个方面来衡量软件质量,简单来说就是:1. 满足需求;2. 符合既定的标准;3. 与隐含特征一致。我们分别解析一下这三个方面在数据质量上是如何应用的:
1. 满足业务需求
这个维度是从数据使用的角度来定义数据质量的好坏。我们基于场景或者业务目标来定义数据质量。举个例子,在一个数据分析的项目当中,项目目标是对用户进行画像分析,那么对于一份数据的质量评估标准就是满足画像分析的这个需求能否被满足。在已知的场景下,数据应该满足该场景下的数据消费需求。
2. 符合既定的标准
在一些特定条件下,例如企业已经制定了数据管理的一些标准,这个时候数据质量的评估应当参考既有标准。例如,某一个数据的时间记录要求精确到毫秒级别,而实际记录的数据可能只到了秒级,这样的数据就不满足既定的数据标准。既定的数据标准可以是行业标准,也可以是企业标准和自制标准。
3. 与隐含特征一致
这一点是说数据应该满足一些隐含的特征,对于隐含的特征包括:客观事实、已知的约束和限定等。比如说,在数据记录中出现了一条温度记录是-300℃的记录,这个明显是一个有问题的数据,因为温度不会低于绝对零度-273.15℃,这个信息就是一个隐含特征。
在明确了数据质量的定义后,我们才能对数据质量的评估制定选择维度和制定衡量标准。
3. 如何进行数据质量评估
1. 明确目标
这里先提一个概念:数据生命周期管理。数据的生命周期从数据规划开始,中间是一个包括产生、处理、部署、应用、监控、存档、销毁这几个步骤并不断迭代的过程。那么在其中任何一个环节都会涉及到数据质量的管理。因此当我们确定此次数据质量评估的目标时,首先要定位当前的数据处于生命周期的哪个阶段,进一步明确后续步骤对于数据质量的需求有哪些。数据价值的体现形式在于数据通过流动最终被消费。同一份数据在不同的生命周期中,其质量的关注点是存在差异的,因此很重要的一点就是明确当前阶段数据质量管理的目标是什么。有了明确的目标,才能开始对数据进行合理的评估。
2. 构建数据全景图
许多企业进行数据质量评估的时候很容易只关注在当前企业的现有数据。从而忽视了当前企业中暂时没有的数据。我们知道,数据可以划分为内部数据和外部数据,还可以通过数据交易获取数据。因此对于数据质量管理,很重要的一点就是企业首先要构建一个数据全景图。基于生态或者完整的业务全景来构建数据全景。数据全景图与业务是不可分离的,因此,脱离了业务,或者仅仅围绕部分当前的业务进行质量的评估,并不能从长远和全局的角度给我们的数据质量管理带来更加价值的指导意义。既要关注当下的现状,又要着眼于未来的演变。
3. 选取数据质量维度
评价数据质量的维度有很多,例如:数据准确性、数据一致性、数据的实效性、数据的完整性等等。可列举出十几种维度或者更多,在许多地方都会有对数据质量维度的具体解释。那么在这里我们要关注的是如何选取维度。尽管每一个维度都与质量相关联,但是并不是每一个维度对质量都会产生相同的影响作用。因此,我们需要对选取几个我们最为关注的数据质量维度来对其进行评估。选取过多的维度会增加后续数据质量评估模型的复杂度,并会增加采样数据,度量质量的成本和难度。而选取过少的维度又不能全面的反应数据质量。一般来说,4-7个维度是比较合理的选择。当然,根据实际需要,也可以定义自己的质量维度和选取适当的数量。
4. 制定数据质量评估模型
经过上一步选定了进行质量度量的维度,接下来就是对数据评估进行建模。建模的目的是我们在对各个维度进行质量度量之后,需要对度量结果进行一个计算,得到一个更加直观的分数来衡量数据质量的好坏。建模本身也是一个复杂的工程,当然简单的评估模型可以是一个线性模型,既各个维度的数值乘以一个权重然后进行累加。也可以是一个很复杂的数学模型,甚至会对模型进行调参。建模本身需要对数据有一定敏感性和深刻的理解,同时需要具备一定的数学知识。
5. 确定数据质量度量标准和度量方法
在数据质量的众多维度当中,有些维度是很容易进行度量的,例如缺失率。缺失率的计算只要统计出缺失的数据量在整个数据集中的占比就可以得出一个具体的值。然而有些维度,例如实效性、一致性等如果要进行度量的话,就不是那么容易了。我们需要在度量之前定义出度量的标准是什么,基于这个标准,再确定度量的方法。就是我们如何把一些描述性的度量全部转化成为可以量化的数值或者比率。需要这样一个量化的过程,才能够将这些度量结果通过模型计算,最终得出一个质量的评估结果。度量的方法也会分为多种,可以是人工去对比,也可以用程序化的方式进行对比,或者采用统计学的方式来进行度量。
6. 实施数据质量评估并撰写评估报告
终于到了最后的实施环节,在实施的环节需要考虑的是数据采样策略。如果数据量小,我们可以对全部数据进行度量和评估。如果数据量很大或者对全量数据进行评估成本过高,那么就需要进行部分数据采样,对样本数据进行评估。数据会有其自身的一些特点,例如周期性或者实效性。因此在制定抽样策略和抽样频率的时候,不能不考虑这些因素,否则采样数据得出的评估结论很可能就会与全量数据的真实情况有较大的偏差,因此如何尽可能的减少偏差也是一个需要思考的问题。
经过抽样、度量、评估之后,就可以得到评估结论了。最后我们需要的就是撰写一份评估的报告,在这份报告当中,除了最后的结论,应当还包括对这个结论的分析和解读,并通过一些可视化的方式展现在报告当中。数据质量评估报告不是最终的目的,这份报告对后续数据质量的管理,数据治理等都具有非常重要的参考意义。因此,在这份报告中应当包含结论、分析以及只质量改善建议这几个方面。
4. 数据质量在数据治理中的重要意义
数据的质量问题从一定的角度反映出组织当中存在的一些问题,而问题的来源可能是数据流动,可能业务流程也可能源于管理问题等等,数据质量问题的分析可以帮助企业找到问题的源头。而高质量的数据对管理决策,业务支撑都有极其重要的作用。数据质量是数据治理中重要的一把标尺,而数据治理又是当今企业组织的首要战略重点之一,只有持续的数据质量改进才能推动数据治理体系的完善,为企业数据战略提供坚实的保障。