企业数据质量评估方法

1. 数据质量的重要性

大数据的概念正在进一步渗透到各个行业与领域当中,随着企业业务增长和规模扩大,以及伴随着信息技术和相关基础设施的不断完善,在短短的几年内,数据已经呈现了爆发式的增长,多数传统企业也开始走上了数字化转型的道路。数据中蕴藏的商业价值也逐渐被人们挖掘出来:客户群体细分提供个性化服务和精准营销、数据驱动创新促进发掘新的需求和商业模式、数据互联互通打破了组织边界提高管理效率和产业效率,以及降低服务成本。

伴随着数据量的增长,与大数据相关的技术也在不断成熟,包括数据采集、数据存储、数据传输、数据处理、数据挖掘等一系列环节。技术更迭带来的实施成本降低,越来越多的企业开始利用数据创新业务,提供数据服务,由原来的业务驱动渐渐转型数据驱动业务的增长。在最近一年的时间里,我接触到了不同行业的客户,包括物流、汽车、教育、金融等,这些企业都已经开始在实施大数据项目。可以预见的是,这类的项目将会越来越多地出现在各个行业当中。

大数据类的项目有个特点,那就是都是以数据为核心。数据将作为产生业务价值和实现业务目标的基石,那么数据的质量就变成了这类项目的一个极其重要的因素。有些项目在初期由于并没有考虑数据质量的因素,导致了项目实施后期才发现,由于数据质量问题所带来的项目失败的风险。在项目的各个环节当中,我们都应当关注数据质量的管理。

2. 数据质量是什么

《数据质量管理的一些思考》一文中,我提到了对于质量的定义。那么对于数据质量来说,我们又该如何定义它。不妨来参考一下对于软件质量的定义--“软件质量是软件与明确地叙述的功能和性能需求、文档中明确描述的开发标准以及任何专业开发的软件产品都应该具有的隐含特征相一致的程度”。那么这个定义同样适用于数据质量。上述定义从三个方面来衡量软件质量,简单来说就是:1. 满足需求;2. 符合既定的标准;3. 与隐含特征一致。我们分别解析一下这三个方面在数据质量上是如何应用的:

1. 满足业务需求

这个维度是从数据使用的角度来定义数据质量的好坏。我们基于场景或者业务目标来定义数据质量。举个例子,在一个数据分析的项目当中,项目目标是对用户进行画像分析,那么对于一份数据的质量评估标准就是满足画像分析的这个需求能否被满足。在已知的场景下,数据应该满足该场景下的数据消费需求。

2. 符合既定的标准

在一些特定条件下,例如企业已经制定了数据管理的一些标准,这个时候数据质量的评估应当参考既有标准。例如,某一个数据的时间记录要求精确到毫秒级别,而实际记录的数据可能只到了秒级,这样的数据就不满足既定的数据标准。既定的数据标准可以是行业标准,也可以是企业标准和自制标准。

3. 与隐含特征一致

这一点是说数据应该满足一些隐含的特征,对于隐含的特征包括:客观事实、已知的约束和限定等。比如说,在数据记录中出现了一条温度记录是-300℃的记录,这个明显是一个有问题的数据,因为温度不会低于绝对零度-273.15℃,这个信息就是一个隐含特征。

在明确了数据质量的定义后,我们才能对数据质量的评估制定选择维度和制定衡量标准。

3. 如何进行数据质量评估

1. 明确目标

这里先提一个概念:数据生命周期管理。数据的生命周期从数据规划开始,中间是一个包括产生、处理、部署、应用、监控、存档、销毁这几个步骤并不断迭代的过程。那么在其中任何一个环节都会涉及到数据质量的管理。因此当我们确定此次数据质量评估的目标时,首先要定位当前的数据处于生命周期的哪个阶段,进一步明确后续步骤对于数据质量的需求有哪些。数据价值的体现形式在于数据通过流动最终被消费。同一份数据在不同的生命周期中,其质量的关注点是存在差异的,因此很重要的一点就是明确当前阶段数据质量管理的目标是什么。有了明确的目标,才能开始对数据进行合理的评估。

2. 构建数据全景图

许多企业进行数据质量评估的时候很容易只关注在当前企业的现有数据。从而忽视了当前企业中暂时没有的数据。我们知道,数据可以划分为内部数据和外部数据,还可以通过数据交易获取数据。因此对于数据质量管理,很重要的一点就是企业首先要构建一个数据全景图。基于生态或者完整的业务全景来构建数据全景。数据全景图与业务是不可分离的,因此,脱离了业务,或者仅仅围绕部分当前的业务进行质量的评估,并不能从长远和全局的角度给我们的数据质量管理带来更加价值的指导意义。既要关注当下的现状,又要着眼于未来的演变。

3. 选取数据质量维度

评价数据质量的维度有很多,例如:数据准确性、数据一致性、数据的实效性、数据的完整性等等。可列举出十几种维度或者更多,在许多地方都会有对数据质量维度的具体解释。那么在这里我们要关注的是如何选取维度。尽管每一个维度都与质量相关联,但是并不是每一个维度对质量都会产生相同的影响作用。因此,我们需要对选取几个我们最为关注的数据质量维度来对其进行评估。选取过多的维度会增加后续数据质量评估模型的复杂度,并会增加采样数据,度量质量的成本和难度。而选取过少的维度又不能全面的反应数据质量。一般来说,4-7个维度是比较合理的选择。当然,根据实际需要,也可以定义自己的质量维度和选取适当的数量。

4. 制定数据质量评估模型

经过上一步选定了进行质量度量的维度,接下来就是对数据评估进行建模。建模的目的是我们在对各个维度进行质量度量之后,需要对度量结果进行一个计算,得到一个更加直观的分数来衡量数据质量的好坏。建模本身也是一个复杂的工程,当然简单的评估模型可以是一个线性模型,既各个维度的数值乘以一个权重然后进行累加。也可以是一个很复杂的数学模型,甚至会对模型进行调参。建模本身需要对数据有一定敏感性和深刻的理解,同时需要具备一定的数学知识。

5. 确定数据质量度量标准和度量方法

在数据质量的众多维度当中,有些维度是很容易进行度量的,例如缺失率。缺失率的计算只要统计出缺失的数据量在整个数据集中的占比就可以得出一个具体的值。然而有些维度,例如实效性、一致性等如果要进行度量的话,就不是那么容易了。我们需要在度量之前定义出度量的标准是什么,基于这个标准,再确定度量的方法。就是我们如何把一些描述性的度量全部转化成为可以量化的数值或者比率。需要这样一个量化的过程,才能够将这些度量结果通过模型计算,最终得出一个质量的评估结果。度量的方法也会分为多种,可以是人工去对比,也可以用程序化的方式进行对比,或者采用统计学的方式来进行度量。

6. 实施数据质量评估并撰写评估报告

终于到了最后的实施环节,在实施的环节需要考虑的是数据采样策略。如果数据量小,我们可以对全部数据进行度量和评估。如果数据量很大或者对全量数据进行评估成本过高,那么就需要进行部分数据采样,对样本数据进行评估。数据会有其自身的一些特点,例如周期性或者实效性。因此在制定抽样策略和抽样频率的时候,不能不考虑这些因素,否则采样数据得出的评估结论很可能就会与全量数据的真实情况有较大的偏差,因此如何尽可能的减少偏差也是一个需要思考的问题。

经过抽样、度量、评估之后,就可以得到评估结论了。最后我们需要的就是撰写一份评估的报告,在这份报告当中,除了最后的结论,应当还包括对这个结论的分析和解读,并通过一些可视化的方式展现在报告当中。数据质量评估报告不是最终的目的,这份报告对后续数据质量的管理,数据治理等都具有非常重要的参考意义。因此,在这份报告中应当包含结论、分析以及只质量改善建议这几个方面。

4. 数据质量在数据治理中的重要意义

数据的质量问题从一定的角度反映出组织当中存在的一些问题,而问题的来源可能是数据流动,可能业务流程也可能源于管理问题等等,数据质量问题的分析可以帮助企业找到问题的源头。而高质量的数据对管理决策,业务支撑都有极其重要的作用。数据质量是数据治理中重要的一把标尺,而数据治理又是当今企业组织的首要战略重点之一,只有持续的数据质量改进才能推动数据治理体系的完善,为企业数据战略提供坚实的保障。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,717评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,501评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,311评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,417评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,500评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,538评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,557评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,310评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,759评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,065评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,233评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,909评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,548评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,172评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,420评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,103评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,098评论 2 352

推荐阅读更多精彩内容