基本概念
数据(Data)
数据是我们通过观察、实验或计算得出的结果。数据有很多钟,最简单的是数字,数据也可以是文字、图像、声音等。
企业内各类数据大致可分为分析数据、共享数据(主数据)、业务场景数据、交易数据和元数据。
元数据(Metadata)
元数据,又称为中介数据、中继数据,是描述数据的数据。
元数据是描述数据属性(Property)的信息,用来支持如指示存储位置、保持历史数据、资源查找、文件记录等功能。
业内通常将元数据分为以下类型:
- 技术元数据:描述数据系统中技术领域相关概念、关系和规则的数据,主要包括对数据结构、数据处理方面的特征描述,覆盖数据源接口、数据仓库、数据集市、ETL、OLAP、数据封装和前端展现等全部数据处理环节。
- 业务元数据:描述数据系统中业务领域相关概念、关系和规则的数据,主要包含业务术语、信息分类、指标订阅和业务规则等信息。
- 管理元数据:描述数据系统中管理领域相关概念、关系和规则的数据,主要包含人员角色、岗位指责和管理流程等信息。
元数据最重要的特征和功能是为数字化信息资源建立一种机器可理解框架。
元数据的作用
有了元数据,可以做以下工作:
- 元数据查看。
一般是以树形结构组织元数据,按不同类型对元数据进行浏览和检索。如我们可以浏览表的结构、字段信息、数据模型、指标信息等。通过合理的权限分配,元数据查看可以大大提升信息在组织内的共享。 - 数据血缘和影响分析
数据血缘指获取到数据的血缘关系,以历史事实的方式记录数据的来源,处理过程等。
数据血缘分析对于用户有重要价值,如:当在数据分析中发现问题数据时,可以依赖血缘关系,追根溯源,快速定位到问题数据的来源和加工过程,减少分析的时间和难度。
影响分析则分析数据的下游流向。当系统进行升级改造的时候,可以通过影响分析定位将影响哪些下游系统。血缘分析指向数据的上游来源,影响分析指向数据的下游。
- 数据冷热度分析
冷热度分析主要是对数据表的被使用情况进行统计,展现表的重要性指数。
通过冷热度分析,我们可以观察到某些数据资源处理长期闲置,没有被任何应用调用。可以作为参考,用于评估是否对这些数据做下线处理,以节省数据存储空间。 - 数据资产地图
数据资产地图一般用于在宏观层面组织信息,以全局视角对信息进行归并、整理,展现数据量、数据变化情况、数据存储情况、整理数据质量等信息,为数据管理部门和决策者提供参考。
主数据(Master data)和静态数据(static data)
主数据指描述某一业务实体对象时,基础数据或者基础属性中被两个及两个以上的业务系统共同使用的部分,通常指相对业务系统或业务场景的共有属性及属性的取值、格式、验证、关系等。主数据不是一种数据,只是数据存在的一种状态,类似大数据需要同时满足几个维度标准时才可以称为大数据。
静态数据指描述某一业务实体对象时,基础数据或基础属性中静态或相对静态的数据的统称,一般包含主数据和业务场景或组织视角的私有数据。通常也可以指除交易数据以外的数据的统称。
静态数据中心(static data center)指包括清洗后的历史数据和新的标准、规范的新增数据,以及描述了这些数据的私有和公有属性、规则、类别、文档、关系、配置信息等全方位的信息集合。
企业数据治理
企业数据治理,指从使用零散数据变为使用统一规范数据,从具有很少或没有组织和流程治理到企业范围内的综合数据治理,从尝试处理数据混乱状况到数据井井有条的一个过程。
企业数据治理的源、末端模式
目前企业存在三种数据治理模式:
-
源端数据治理,指通过解决业务系统源头数据质量问题,实现提高数据分析的准确率。
-
末端数据治理,指针对解决数据全生命周期末端(数据仓库层)数据质量的问题,实现提高数据分析的准确率。
- 综合数据质量,指包括源端和末端数据治理的混合模式。