任何事情一谈到治理一定有两方面的原因,一是这件事情出了很大的问题,二是这件事情非常重要。比如现在的大气污染治理,社会治安综合治理等都是这样的。石油数据管理工作开展这么多年,建立了非常多的系统,也取得了很大的成绩,为石油勘探开发业务工作做出了很大的贡献。目前数据管理工作已经走到了一个关键的十字路口,一方面旧的数据管理技术和建设模式远远不能满足要求越来越高的专业应用的需求,另外一方面以信息共享、知识管理为核心的新的数据管理技术和应用新体系还没有建立起来,而影响这个转换的主要原因就是数据问题,即现有数据管理和业务的脱节。因此要继续开展数据管理方面的工作就必须对过去的工作进行治理。
石油勘探开发数据治理是近几年比较热门的工作,该工作的重要性也逐步引起油田领导的重视,大部分油田都在筹划数据治理工作,具体工作中也出现了对数据治理工作的各种不同理解和方案。无论哪种数据治理技术方案,最终都要回到问题的本质,也就是按照未来应用的需要解决目前数据管理的各个方面的问题。从概念上讲数据治理技术就是围绕如何将现有的物理数据转变为合格的业务数据过程中所需要的各种处理技术。
1. 数据治理解决什么问题?
数据治理本质上是将现有物理的数据变为业务上可以使用,能够表达业务的数据转变过程。站在业务的角度,数据治理工作需要回答以下几个关键问题:
1.1.回答石油勘探开发业务究竟有多少数据
我们在“石油数据的分类方式”中说到,石油勘探开发数据是一个典型的主动设计数据类型,这种类型数据应该有多少理论上我们事先是可以知道的,也就是说从一个完整的业务过程,我们是知道理论上应该有多少数据的。目前大多数数据库模型设计也是基于这个原理设计的。
1.2.建立合格的业务数据标准
所有的数据都是为了业务应用,站在应用角度对数据是有明确的要求的,一个合格的石油数据应该包含如下特征:
1) 数据的业务信息完整(具体内容见“石油数据的本质”),能够反映业务所有的信息;
2) 数据之间具有完整的业务关系(非数据库主外键关系);
3) 数据与业务之间具有很好的对应关系,一个标准的数据单元能够反应一个特定的业务含义;
4) 每一个数据具有唯一的源头,同一个数据在不同地方应该是一致的;
5) 数据可以被业务直接使用,中间不必要任何变换;
6) 能够通过业务语言找到对应的数据。
1.3.确定目前已经管理了哪些数据
回答这个问题比较简单,就是将现有所有的数据库系统梳理一遍,就可以知道我们目前已经管理了哪些数据。概念上这个问题比较简单,实际工作需要按照上述理论数据清单逐项梳理。通过梳理我们不仅能够回答已经管理了哪些数据,还可以回答这些数据分布在什么系统中。
1.4.确定还有哪些数据目前没有被管理
从石油勘探开发业务角度,任何一个数据都是有用的,如果我们知道了石油应该有多少数据,也知道了目前已经管理了哪些数据,就很容易知道还有哪些数据目前没有被管理。
1.5.梳理现有业务数据问题
对照建立的业务数据标准逐项检查已有的数据存在哪些问题,建立数据问题清单。如盆地、区带、圈闭、油气藏、井等对象主数据是否有统一的视图?是否有统一的数据资产目录?数据质量如何?数据源头问题、一致性问题等等。
针对每不同的问题采用不同的解决方案。
1.6.建立统一的数据安全管理体系
数据的安全使用是数据管理的核心工作之一,数据的安全管理从技术上要建立数据的分级分类标准,在此基础上建立数据权限管理体系。
1.7.建立数据共享服务机制。
通过数据治理工作建立一个统一的数据共享服务机制,满足业务应用对数据的应用需求。
1.8.建立后续数据长效管理机制
数据治理工作不仅仅要解决已有数据存在的问题,更为重要的是建立一个长效数据管理机制保证今后新产生的数据不再出现新的问题。长效机制包括管理制度体系和技术保障体系。
2. 数据治理工作方案
针对上述数据治理工作目标,整个数据治理工作方案涉及到的内容非常多,工作量也巨大。
2.1.数据业务描述模型建立
石油勘探开发业务具有明确的工作流程和确定的工作标准,因此通过业务的梳理可以确定有多少业务工作节点,应该产生多少业务数据。
数据业务描述模型建立包括两个部分工作内容,一是业务描述坐标的建立,二是石油业务模型细化。
建立业务描述模型实际上就是从各个维度梳理整个石油业务的工作内容,通过该工作内容的梳理为数据描述模型建立基础。
通过该工作可以回答石油业务应该有哪些数据,将理论上的数据内容全部梳理清楚。
2.2.数据接入
将现有数据接入到数据业务描述模型中,可以回答目前有哪些数据,同时已有数据质量检查清单也可以基本了解数据存在主要问题。
2.3.数据源头治理
知道了业务和数据的对应关系就很容易确定每一个数据的产生源头,因此每一个数据理论上都有唯一的数据源头,目前的现状是同样一个数据在不同的地方有很多的版本,造成数据之间的不一致。数据源头治理包括两个部分内容,一是数据源头定义,二是数据源头管理。
2.3.1.数据源头定义
根据业务与数据关系很容易对数据源头进行定义。定义数据源头就是确定每一项数据产生的方式及业务工作节点。
2.3.2.数据源头管理
通过数据字典对数据源头进行管理,只有在数据源头的工作流程才能采集该数据,实现数据的一次采集。其它工作使用这些数据都是引用源头数据。
2.4.对象主数据治理
主要包括对象类型的标准化、对象名称的标准化、对象关系梳理、主数据管理等几个方面内容。
对象主数据是整个数据体系中的“纲”,因此需要将该项工作作为数据治理工作的重点。
2.5.活动主数据治理
活动梳理是主数据治理中重要的内容,通过活动主数据治理可以将业务包含的数据内容基本梳理清楚,也能够清晰地知道我们现有数据的不足。
在业务模型中活动分为几个维度,业务域、工作域、业务流程等,通过不同维度的分别梳理及组合,可以将活动主数据梳理清楚。
2.6.参考主数据治理
在石油业务中应用了大量的代码或者编码,这些对业务的交流、标准化描述起到很大作用。对这些代码及编码进行管理就是参考数据治理的主要任务。
2.7.业务数据治理
业务数据治理主要是梳理现有业务数据分布、存储、质量等各个方面的情况。通过业务数据治理得到已有数据的基本情况。
业务数据治理一般先制定业务数据质量检查清单,根据清单检查业务数据存在问题,根据不同的问题采用对应的方案解决业务数据质量问题。
2.8.元数据治理
理论上每一个数据都应该有一个元数据,将所有数据的元数据恢复是元数据治理的主要任务。元数据治理包括三个方面的工作,一是元数据标准建立,二是老数据元数据内容恢复,三是新数据元数据采集服务建立。
2.8.1.元数据标准建立
石油数据元数据标准包括很多内容,我们依据石油业务特点,建立了一个元数据标准描述内容。元数据可以分为业务元数据、数据产生元数据、数据使用元数据、其它元数据等。
2.8.2.老数据元数据内容恢复
现有几乎所有的老数据都没有元数据,如何找到一种办法将所有的数据元数据恢复是该工作的任务。数据治理想要找到一个能够自动恢复数据源数据的技术和方法。
2.8.3.新数据元数据采集服务建立
新数据的产生要能够自动建立元数据,这就需要通过元数据生成服务解决该问题。
2.9.数据业务化
目前所有的数据都是以物理形态存储和管理的,和业务真正使用的数据形态有一定的差异,数据业务化就是将物理数据变为业务数据的过程。数据业务化技术要依据不同的数据物理状态采用不同的实现方式,常用的有:
1) 结构化数据加工萃取
2) 非结构化数据拆分
3) 成果数据萃取
4) 图形数据萃取
5) 知识生成
2.10.新数据采集治理
数据采集治理是如何保证所有的数据是在其源头实现的采集,并且这个采集是融入到实际业务工作中的。理论上数据采集在数据产生时实现是最好的,不仅可以采集数据本身,还可以准确采集相关的元数据信息。
新数据的采集不是开发一套专门的数据采集系统,而是在数据产生的业务工作系统中加入数据采集的功能。
2.11 数据安全管理
2.11.1 数据分级
石油数据我们一般可以分为敏感数据、普通受限数据、开放数据三大类。敏感数据是关系石油企业关键信息的数据,只能在有限的范围内开放;普通受限数据是指我们日常使用的数据,这些都是有一定的保密要求的;开放数据是指可以公开的数据,一般是指收集到的外部杂志或者书籍中数据。
2.11.2 数据安全控制
数据安全控制是建立用户与数据之间的关联使用关系,具体就是一个数据可以被哪些用户使用,或者说一个用户可以使用哪些数据。
数据的使用权限和用户采用什么系统、什么方式无关,只需要建立用户与数据之间的使用关系、使用方式,所有的应用系统在使用数据时都受这个约束。
2.12 数据统一服务
数据治理最终目标是数据应用,从数据管理角度就是提供数据服务。数据服务是提供一个公共的、共享的服务模式,该服务模式与用户使用的具体系统无关。
数据统一服务一般提供两种方式,一是对用户直接使用数据管理系统的服务,如搜索、查询等,这个需要通过一些应用功能实现。二是通过数据服务接口对应用系统提供数据服务。
2.13 数据资产化管理
数据治理完成后,一般需要提供一个统一的数据资产管理系统,实现对所有数据的资产化管理工作。
数据资产化管理系统可以提供对数据的概况了解、数据的动态变化监控、数据的使用监控、数据的质量检查及监控、具体数据的内容查看、各种维度的数据信息统计分析等。
2.14 数据管理体系建立
数据治理工作表面看是一个技术型工作,本质上是一个新的数据管理体系的重构过程,因此在开展数据治理工作过程中还需要根据情况建立一个完善的数据管理体系,将未来的数据全生命周期管理纳入到这个体系中,实现对数据的科学管理、科学使用,真正为油田企业数字化转型工作起到基础支撑作用。