元数据
1. 业务驱动因素
数据管理需要元数据,元数据本身也需要管理,可靠且良好管理元数据有助于:
- 通过提供上下文语境和执行数据质量检查提高数据可信度
- 通过扩展用途增加战略信息价值
- 通过识别冗余数据和流程提高运营效率
- 防止使用过时或不正确的数据
- 减少数据的研究时间
- 改善数据使用者和IT专业人员之间的沟通
- 创建准确的影响分析,从而降低项目失败的风险
- 通过缩短系统开发生命周期时间缩短产品上市时间
- 通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响
- 满足监管合规
元数据管理不善会导致以下问题:
- 冗余的数据和数据管理流程
- 复制和冗余的字典、存储库和其他元数据存储。
- 数据要素的定义不一致以及与数据滥用有关的风险。
- 元数据的来源和版本相互竞争和冲突,降低了数据消费者的信心。
- 对元数据和数据的可靠性表示怀疑。
2. 目标和原则
元数据管理目标:
- 记录和管理数据相关的业务属于的知识体系,以确保理解和使用数据内容的一致性
- 收集和整合来自不同来源的元数据,以确保了解来自组织不同部门的数据之间的相似与差异
- 确保元数据的质量、一致性、及时性和安全
- 提供标准途径,使元数据使用者可访问元数据
- 推广或强制使用技术元数据数据标准,以实现数据交换
元数据管理应遵循指导原则:
- 组织承诺。确保组织对元数据的管理,将元数据管理作为企业整体战略的一部分,将数据作为企业资产进行管理。
- 战略。制定元数据战略,考虑如何创建、维护、集成和访问元数据。
- 企业视角。从企业视角确保未来的可扩展性,但要通过迭代和增量交付来实现,以带来价值。
- 潜移默化。宣导元数据的必要性和每种元数据的用途;潜移默化其价值将鼓励业务使用单元数据,同时也为业务提供知识辅助
- 质量。认识到元数据通过现有流程生成的,所以流程所有者应对元数据及的质量负责
- 审计。制定、实施和审核元数据标准,以简化元数据的集成和使用
- 改进。创建反馈机制,以便数据使用者可将错误或过时的元数据反馈给元数据管理团队
3. 基本概念
元数据的类型
在信息技术之外的领域,如在图书馆或信息科学中,元数据被描述为不同的类型
- 描述性元数据(如标题、作者和主题)描述了资源,使人们能够识别和检索。
- 结构性元数据(Structural Metadata)描述了资源内部和资源之间的关系及其组成部分(如页数、章数)。
- 管理元数据(如版本号、归档日期)用于管理资源的生命周期。
业务元数据
- 数据集、表和字段的定义和描述
- 业务规则、转换规则、计算公司和推导公式
- 数据模型
- 数据质量规则和检核结果
- 数据的更新计划
- 数据溯源和数据血缘
- 数据标准
- 特定的数据元素记录系统
- 有效值约束
- 利益相关方联系信息
- 数据的安全/隐私级别
- 已知的数据问题
- 数据使用说明
技术元数据
- 物理数据库表命和字段名
- 字段属性
- 数据库对象的属性
- 访问权限
- 数据CRUD(增、删、改、查)规则
- 物理数据模型,包括数据表名、键和索引
- 记录数据模型和十五资产之间的关系
- ETL工作详细信息
- 文件格式模式定义
- 源到目标的映射文档
- 数据血缘文档,包括上游和下游变更影响的信息
- 程序和应用的名称和描述
- 周期作业的调度计划和依赖
- 恢复和备份规则
- 数据访问的权限、组、角色
操作元数据
- 批处理程序的作业执行日志
- 抽取历史和结果
- 调度异常处理
- 审计、平衡、控制度量的结果
- 错误日志
- 报表和查询的访问模式
- 频率和执行时间
- 补丁和版本的维护计划和执行情况,以及当前的补丁级别
- 备份、保留、创建日期、灾备恢复预案
- 服务水平协议(SLA)要求和规定
- 容量和使用模式
- 数据归档、保留规则和相关归档文件
- 清洗标准
- 数据共享规则和协议
- 技术人员的角色、职责和联系信息
ISO/IEC 11179元数据注册标准
该标准提供了用于定义元数据注册的框架,旨在基于数据的精确定义,从数据元素开始,实现元数据驱动的数据交换。该标准由以下几部分组成:
- 数据元素生成和标准化框架
- 数据元素分类
- 数据元素的基本属性
- 数据定义的形成规则和指南
- 数据元素的命名和识别原则
- 数据元素的注册
非结构化数据的元数据
- 描述元数据,如目录信息和同义关键字;
- 结构元数据,如标签、字段结构、特定格式;
- 管理元数据,如来源、更新计划、访问权限和导航信息;
- 书目元数据,如图书馆目录条目;
- 记录元数据,如保留策略;
- 保存元数据,如存储、归档条件和保存规则。
元数据来源
- 应用程序中的元数据存储库
- 业务术语表
- 商务智能工具
- 配置管理工具
- 数据字典
- 数据集成工具
- 数据库管理和系统目录
- 数据映射管理工具
- 数据质量工具
- 字典和目录
- 事件消息工具
- 建模工具和存储库
- 参考数据库
- 服务注册
- 其他元数据存储
4. 元数据架构的类型
集中式元数据架构
分布式元数据架构
混合式元数据架构
双向元数据架构
5. 活动
定义元数据战略
- 启动元数据战略计划:启动和计划的目的是保证元数据战略团队可定义出短期和长期目标。计划包括起草与整体治理措施一致的章程、范围和具体目标,然后开展沟通计划以落实治理措施。
- 组织关键利益相关方访谈:通过对业务人员和技术人员的访谈,可得到元数据战略的基础知识
- 评估现有的元数据资源架构和信息架构:评估确定解决元数据和系统问题的难度、在访谈和文档复查中识别这些问题。
- 开发未来的元数据架构:优化和确认未来愿景,开发可满足管理现阶段元数据环境长期目标的元数据架构
- 制定分阶段的实施计划:从访谈和数据分析中验证、整合、确定结果的优先级,发布元数据战略,并定义分阶段的、可从当前状态迈向未来受控的元数据环境的实施方法。
理解元数据需求
- 更新频次,元数据属性和属性集更新频率
- 同步情况,数据源头变化后的更新时间
- 历史信息,是否需要保留元数据的历史版本
- 访问全新,通过特定的用户界面功能,谁可以访问元数据,如何访问
- 存储结构,元数据如何通过建模来存储
- 集成要求,元数据从不同数据源的整合程度,整合的规则
- 运维要求,更新元数据的处理过程和规则
- 管理要求,管理元数据的角色和职责
- 质量要求,元数据数据需求
- 安全要求,一些元数据不应公开,因为会泄漏某些高度保密数据的信息
定义元数据架构
元数据架构应为用户访问元数据存储库提供统一入口,该入口必须向用户透明地提供所有相关元数据资源,这意味着用户可在不关注数据源的差异的情况下访问元数据。
创建元模型
创建一个元数据存储库的数据模型(即元模型),是定义元数据战略和理解业务需求后的第一个设计步骤。可根据需求开发不同级别的元模型;高级别的概念模型描述了系统之间的关系,低级别的元模型细化了各个属性,描述了模型组成元素和处理过程。
应用元数据标准
元数据解决方案应遵循在元数据战略中已定义的对内核对外的标准,组织对内元数据标准包括命名规则、自定义属性、安全、可见性和处理过程文档,组织对外元数据标准包括数据交换格式和应程序接口设计。
管理元数据存储
创建和维护元数据
责任。(Accounttability)认识到元数据通常通过现有流程产生,因此流程的执行者对元数据的质量负责。
标准。(Standards) 制定、执行和审计元数据标准,简化集成过程,并且使用。
改进。(Improvement) 建立反馈机制保障用户可以将不准确或已过时的元数据通知元数据管理团队。
整合元数据
分发和传递元数据
查询、报告和分析元数据
元数据指导如何使用数据资产:在商务之后能、商业决策以及业务语义方面使用元数据。元数据存储库应具有前段应用程序,并支持查询和获取功能,从而满足以上各类数据资产管理的需要。
6. 工具
用于管理元数据的主要工具是元数据库。这将包括一个集成层,通常还有一个手动更新的接口。产生和使用元数据的工具成为元数据的来源,可以整合到元数据库中。
7. 方法
数据血缘和影响分析
业务焦点:根据业务优先级寻找数据元的血缘关系。从目标位置回溯到具体数据起源的源系统。通过扫描那些数据迁移、传送或更新的数据元,确保业务数据使用者理解特定数据元在系统间迁移时发生了什么
技术焦点:从源系统开始识别直接相关的数据使用者,依次识别间接的数据使用者,直到识别出所有系统为止。许多数据整合工具提供数据血缘分析功能,该功能不仅包括开发大量代码,也设计了数据模型和物理数据库。
应用于大数据采集的元数据
元数据标签应在采集时应用于数据,然后元数据可用来识别可访问的数据湖中的数据内容。大部分采集引擎采集数据后进行数据剖析,数据剖析可识别出数据域、数据关系和数据质量问题,并打上标签。采集数据时,识别到敏感或隐私数据时应添加元数据标签。
8. 实施指南
就绪评估/风险评估
组织和文化变革
9. 元数据治理
过程控制
数据管理团队应负责定义标准和管理元数据的额状态变化,同时可负责组织内的质量提升活动、培训计划或事实培训活动。
元数据解决方案的文档
- 元数据管理事实状态
- 源和目标元数据存储
- 元数据更新的调度计划信息
- 留存和保持的版本
- 内容
- 质量声明或警告
- 记录系统和其他数据源状态
- 相关的工具、架构和人员
- 敏感信息和数据源的移除或敏感策略
元数据标准和指南
度量指标
- 元数据存储库完整性。将企业元数据的理想覆盖率与实际覆盖率进行比较。
- 元数据管理成熟度。根据能力成熟度模型的成熟度评估方法,开发用于判断企业元数据成熟度的指标。
- 专职人员配备。通过专职人员的任命情况、整个企业的专职人员覆盖范围,以及职位描述中的角色定义说明,来评估的组织对元数据的承诺。
- 元数据使用情况。可通过存储库的访问法次数衡量用户对元数据存储库的使用情况和接受程度。
- 业务术语活动。使用、更新、定义解析、覆盖范围。
- 主数据服务数据遵从性。显示SOA解决方案中数据的重用情况。
- 元数据文档质量。一个质量指标是通过自动和手动两种方式评估元数据文档的质量。自动评估方式包括对两个源执行冲突逻辑的比对、测量二者匹配的程度以及随时间推移的变化趋势。另一个度量指标是度量具有定义的属性的百分比,以及随着时间的推移而发生变化的趋势。手动评估方式包括基于企业质量定义进行随机或完整的调查。质量度量表明存储库中元数据的完整性、可靠性、通用性等。
- 元数据存储库可用性。正常运行时间、处理时间。