背景:
本书作为DAMA的伴侣,力图通过简单精要的语言描述DAMA数据管理体系,为数据从业人员提供案边手册,本文再度进行精炼,力图通过一文为不懂数据管理的人员了解数据管理概念,以作为DAMA体系解析的开篇。接下来的拆书,我将不按照原本的逻辑,而是透过问题看本质,按照数据知识体系的逻辑进行讲解。对于内容有疑问,欢迎积极留言讨论。
一家企业是以意识到数据的重要性 为战略规划起点的,我们叫做数据意识觉醒,所以数据管理的前提是公司决策高层的坚定支持和理解。数据管理(DM)和数据治理(DG)的概念在大部分情况下都模糊不清,DAMA体系里数据管理是大于数据治理的,数据治理只是数据管理的一个行为子集。
问题导向:
如果公司高层有了数据意识觉醒,交给你一个数据管理或者数据治理的任务,我们应该怎么做?
首先需要了解数据管理的概念,数据的特性决定了做数据管理是一个系统工程,需要有科学的方法论体系,建议你参考DAMA;其次需要评估组织数据管理的现状,参照数据管理成熟度模型进行;然后基于评估结果制定PDCA计划;最后需要启动组织变更,目的是支撑数据管理实施的路线图。
如何评估数据管理水平:
数据管理成熟度模型定义了5个层级:
等级一:初始级。组织没有意识到数据的重要性,数据需求的管理主要是在项目级来体现,没有统一的数据管理流程,存在大量的数据孤岛,经常由于数据的问题导致低下的客户服务质量、繁重的人工维护工作等。
等级二:受管理级。组织已经意识到数据是资产,根据管理策略的要求制定了管理流程,指定了相关人员进行初步的管理,并且识别了与数据管理、应用相关的干系人。
等级三:稳健级。数据已经被当作实现组织绩效目标的重要资产,在组织层面制定了系列的标准化管理流程以促进数据管理的规范化,数据的管理者可以快速地满足跨多个业务系统、准确、一致的数据要求,有详细的数据需求响应处理规范、流程。
等级四:量化管理级。数据被认为是获取竞争优势的重要资源,组织认识到数据在流程优化、工作效率提升等方面的作用,针对数据管理方面的流程进行全面的优化,针对数据管理的岗位进行关键绩效指标(key performance indicator,KPI)的考核,规范和加强数据相关的管理工作,并且根据过程的监控和分析对整体的数据管理制度和流程进行优化。
等级五:优化级。数据被认为是组织生存的基础,相关管理流程能够实时优化,能够在行业内进行最佳实践的分享。
如何做数据管理?
本书的重点是介绍数据管理的概念,后面我们将各个章节融合到DAMA数据体系去讲解,你将可以参考DAMA去深入数据管理。
数据无处不在,是企业的资产;数据是一种有价值的资产,但也隐含着风险。低质量的数据带来损耗,高质量的数据带来收益。,但需要将技术管理和数据管理分开。数据管理的挑战首先是由数据资产的特性决定的,数据资产不可触摸、持久的、不会被消耗,但在使用的时候有被盗的风险;容易被拷贝和迁移,但是如果丢失或被破坏,将不可再生;数据是动态的,可以在同一时刻被多人使用。以上特性造成数据管理的难度:(1)难以盘点组织有多少数据资产;(2)很难定义数据的所有权和责任;(3)很难防止滥用数据;(4)数据风险管理很难;(5)很难定义和执行统一的数据质量标准;
数据管理需要站在企业全局的视角去规划、协同和技术实现,数据管理的核心是管理数据的生命周期,专注于数据的产生、迁移和维护的全过程,数据有不同的分类规则,不同类型的数据又会有不同的生命周期需求,但也有共性的规则如下:(1)在数据生命周期中,数据的产生和使用是最主要的关键点;(2)数据质量管理必须贯穿数据生命周期的全过程;(3)元数据管理必须贯穿数据生命周期全过程;(4)数据安全管理必须贯穿数据生命周期全过程;(5)数据管理应该专注于最关键的数据;
DAMA数据管理的原则如下:
数据管理的11大知识领域:
DAMA数据管理包括11个知识领域和3大主题域,全景视图如下:
数据管理11个知识域如下:
数据治理:依据组织的整体需求,通过建立数据决策的权限和责任,为数据管理活动和职能提供整体的指导和监督;
数据架构:基于组织的战略目标,建立符合战略需求的数据架构;
数据建模和设计:探索、分析、表示和沟通数据需求的一个过程,最后输出数据模型;
数据存储和操作:包括数据存储的设计、实施和支持,目的是达到利益最大化;该活动贯穿数据的整个生命周期——从数据规划到数据消除;
数据安全:确保数据隐私和安全;
数据整合与互操作性(翻译错误,应该为集成与交换):包括存在于不同数据系统、应用程序和组织之内,以及组织之间的数据迁移和集成等;
文档和内容管理:通过PDCA活动,来管理那些存储于非结构化介质中的数据和它们的生命周期,甚至是那些与法律及合规性相关的文件的管理;
参考数据(翻译错误,应该为字典数据)和主数据管理:对核心关键共享数据的持续更新和维护,以便得到最准确、及时并和基础业务相关的数据;
数据仓库和商务智能:通过PDCA活动,为管理决策提供数据量化的支持,使相关工作人员能够通过数据分析和数据报告获取价值;
元数据管理:通过PDCA活动,支持访问高质量的元数据集,包括定义、模型、数据流和其他对理解数据及其创建、维护和访问至关重要的信息;
数据质量管理:包括规划和实施质量管理技术,以衡量、评估和改善组织使用的数据;
数据管理的三大核心领域:
DAMA数据管理的三大核心领域:数据治理、数据生命周期管理、数据的基础活动;
数据治理活动:
数据治理需要EMT领导层的承诺和投入,是一项持续性的工作,贯穿整个数据管理的生命周期,通过阐明战略、建立框架、制定方针及实现数据共享,为其他数据管理职能提供指导和监督;数据治理是实现业务目标的一种手段,本身不是目的;通过将获得和行为与数据管理原则相结合,来支持组织的业务战略,应对数据管理的挑战。
一个成功的数据治理项目将:1.建立符合并支持业务战略的数据治理战略;2.基于数据管理原则,制定和执行相关行动计划;3.设置数据质量标准;4.提供关键数据的管理;5.确保组织遵守和数据相关的法规;6.管理那些与数据和治理的各方面相关的问题。
数据的生命周期管理:
规划与设计:
企业数据架构描述如何组织和管理数据,由数据架构师、建模师和数据管理专员负责,负责管理业务架构创建和要求的数据,包括数据模型、数据定义、数据映射规范、数据流、结构化数据API;
数据架构的核心是数据模型(数据结构和数据规范)和数据流设计。数据建模是发现、分析和界定数据需求的过程,然后以数据模型的文档准确表示和传递这些数据需求:
目标:描述结构、范围定义,然后进行文档化;
如何做:5w1h描述实体,描述实体关系,定义属性,定义值域;
数据操作与维护:
(1)数据存储与操作:DBA确保数据引擎正常运行;
(2)数据集成与交换;
(3)数据仓库:
数据仓库建设理论有2个核心流派,而在实际假设过程中需要选择性予以参考和综合,无需完全参考理论。
Bill Inmon:面向主题的、集成的、反映历史变化的、相对稳定的数据集和,以支持管理层的决策过程。
Ralph Kimball:专门为查询和分析构建的交易数据的副本。
(4)字典管理;
(5)主数据管理:
主数据管理是一个全数据生命周期的过程,不仅在MDM系统中管理,还必须可供其他系统和流程使用,依靠能够共享和反馈数据的技术,还需要可备份。主数据管理的核心业务逻辑:1.确定主数据源;2.建立精确匹配和合并实体实例的规则;3.建立识别和恢复不恰当适配与合并数据的方法;4.建立向整个企业系统分发可信数据的方法;
(6)文档与内容管理;
(7)大数据存储;
数据使用和数据科学:
(1)主数据的使用;
(2)商务智能;
(3)数据科学:是指开发预测模型的过程,数据分析师使用科学的方法(观察、假设、实验、分析和给出结论)来开发和评估分析模型或预测模型;
(4)预测性分析;
(5)数据可视化;
(6)数据货币化;
数据管理的基础活动:
数据保护、隐私、安全和风险管理;
元数据管理:管理“数据的数据”,是数据管理的基础;
数据质量管理:
规范的数据质量管理主要包括:
(1)通过数据质量DQ标准、规则和需求来定义高质量的数据;
(2)对照已制定的相关标准评估数据,并向利益相关方通报评估结果;
(3)对应用中的数据和数据存储进行监控和报告;
(4)识别问题并提出改进意见。
数据质量提升周期:PDCA;数据质量的保障需要坚定的领导层;
收获:
通过本文,你将了解如果你的企业需要做数据管理或数据治理,你应该从熟悉DAMA体系开始,获取公司高层的坚定支持,通过指导合理评估数据管理现状,基于评估制定改进计划,从方法论落地到实际数据管理。本文讲解了数据管理的11大知识领域和3大核心业务领域,以最简的内容快速解析数据管理核心内容,从全局上为数据管理 以及 数据治理 进行导航。针对原书中的翻译的不妥之处进行了改进,如有疑问,欢迎留言讨论。