数据整合和互操作性
1. 什么是数据编排,为什么如此重要
- 数据集成将数据整合为一致的形式(物理或虚拟),两个或多个系统可以共享数据
- 数据互操作性提供了多个系统进行通信的能力,两个或多个系统保持不变,并且可以一起工作
- DII的目标是使数据高效地移入/移出不同的数据存储
2. 介绍
- 数据迁移和转换
- 将数据合并成中心或仓库
- 将供应商软件包整合到一个组织的应用程序组合中去
- 应用程序之间和跨组织的数据共享
- 在数据存储和数据中心之间分配数据
- 归档数据
- 管理数据接口
- 获取和摄取外部数据
- 整合结构化和非结构化数据
- 提供运营情报和管理决策支持DII依赖于这些其他领域的数据管理。
- 数据治理。用于治理转换规则和消息结构
- 数据架构。用于设计解决方案
- 数据安全。用于确保解决方案适当保护数据的安全,无论数据是持久的、虚拟的,还是在应用和组
织之间的移动中的数据,都能得到适当的保护 - 元数据。用于跟踪数据(持久化、虚拟和运动中的数据)的技术库存、数据的业务意义、数据的业
务规则转换、数据的运行历史和数据的行踪等方面的技术清单 - 数据存储和运营。用于管理解决方案的物理实例化
- 数据建模与设计。用于设计数据结构,包括数据库中的物理持久性、虚拟数据结构,以及应用程序
和组织之间信息传递的消息等数据结构
3. 业务驱动因素
- 对数据移动进行有效管理:管理数据在组织内部的存储库与 其他组织之间的双向流动过程。
- 维护管理成本:标准工具的应用可降低维护和人力成本,并提高故障排除工作的效率。
4. 目标和原则
目标
- 及时以数据消费者所需的格式提供数据
- 将数据物理地或虚拟地合并到数据中心
- 通过开发共享模型和接口来降低管理解决方案的成本和复杂度
- 识别有意义的事件(机会和威胁),自动触发警报并采取相应行动
- 支持商务智能、数据分析、主数据管理以及运营效率的提升
原则
- 采用企业视角确保未来的可扩展性设计,通过迭代和增量交付实现
- 平衡本地数据需求与企业数据需求,包括支撑与维护
- 确保数据集成和互操作设计和多动的可靠性。
5. 基本概念(😊)
抽取、转换、加载(ETL)
- 抽取
抽取过程包括选择所需的数据并从其源数据中提取,然后,被抽取的数据会在磁盘或内存中的物理数据存储库中进行存储。最理想的情况是,如果该过程在操作系统上执行,则设计成尽可能少地使用资源,以避免对操作过程产生负面影响。在非高峰时段进行批量处理,对于包括复杂处理以执行选择或确定要提取的变更数据的提取,可以选择在非高峰时段进行批量处理。 - 转换
转换过程使选定的数据与目标数据存储的结构兼容。转换包括当数据移动到目标时从源中移除数
据、数据被复制到多个目标的情况,以及数据被用于触发事件但不被持久化的情况。
格式变化:技术上的格式转换
结构变化:数据结构变化,如从非规范化到规范化记录
语义转换:数据值转换时保持语义的一致化表达
消除重复:如规则需要唯一的键值或记录,以确保包括扫描目标、检测和删除重复行的方法
重新排序:改变数据元素或记录的顺序以适应已定义的模式 - 加载
ETL的加载步骤是在目标系统中物理存储或显示转换结果 - 抽取,转换,加载(ELT)
如果目标系统比源系统或中间应用系统具有更强的转换能力,那么数据处理顺序可切换为ELT(抽取、加载、转换)。ELT允许在数据加载到目标系统后再进行转换。 -
映射(mapping)
映射定义了要抽取的源数据与抽取数据的识别规则、要加载的目标与要更新的目标行的识别规则以及要应用的任何转换或计算规则。
延时
- 批处理
- 变更数据捕获
变更数据捕获是一种通过增加过滤来减少传送宽带需求的方法,只包含在特定时间范围内更改过的数据。变更数据捕获监视数据集的更改(插入、更改、删除),然后将这些更改(增量)传送给使用这些数据的其他数据集、应用程序和组织。变更数据捕获可是基于数据的,也可基于日志。 - 近实时和事件驱动
- 异步
- 实时,同步
- 低延迟或流处理
复制
复制技术将分析和查询对主事务操作环境性能的影响降至最低。标准复制解决方案是准实时的,数据集的一个副本和另一个副本之间的更改有很小的延迟。如果数据更改动作发生在多个副本站点时,那么数据复制解决方案不是最佳的选择。
归档
不经常使用或不主动使用的数据可以转移到另一个对组织成本较低的数据结构或存储解决方案。
企业信息格式/标准模式
交互模型
- 点到点
- 中心辐射型
- 发布与订阅
数据集成和互操作架构概念
- 应用耦合
- 编排和流程控制
- 企业应用集成
- 企业服务总线(ESB)
- 面向服务的架构
- 复杂事件处理(CEP)
事件处理是一种跟踪和分析(处理)关于发生的事情(事件)的信息(数据)流,并从中得出结论的方法。复杂事件处理(CEP)将多个来源的数据结合起来,识别出有意义的事件(如机会或威胁),以预测行为或活动,并自动触发实时响应,如建议消费者购买某种产品。设置规则来指导事件的处理和路由。 - 数据联邦和虚拟化
- 数据即服务
软件即服务(Saas)是一种交付和许可模式,许可应用程序提供,但软件和数据位于软件供应商控制的数据中心,而不是获得许可组织的数据中心。
数据即服务(Daas)的一个定义是从供应商获得许可并按需由供应商提供数据,而不是存储和维护在被许可组织数据中心的数据。 - 云化集成(IPaas)
数据交换标准
数据交换标准是数据元素结构的正式规则,交换模式定义了任何系统或组织交换数据所需的数据转换结构。数据需要映射到交换规范中。
6. 活动
规划和分析
- 定义数据集成和生命周期需求
定义数据集成需求涉及理解组织的业务目标,以及为实现这些目标而需要的数据和建议的技术方案。定义需求的过程可以创建并发现有价值的元数据,组织的元数据越完整和准确,其管理数据集成风险和成本的能力就越强。 - 执行数据探索
数据探索应该在设计之前进行。探索的目标是为数据集成工作确定潜在的数据来源。数据探索将确定可能获取数据的位置以及可能集成的位置。数据探索还包括针对数据质量的高级评估工作,以确定数据是否适合集成计划的目标。数据探索生成完善组织的数据目录。 - 记录数据血缘
数据是如何被组织或创建的,它在组织中如何移动和变化以及如何被组织用于分析、决策或事件触发的。详细记录的数据血缘可包括根据哪些规则改变数据以及改变的频率。分析过程还可以提供改进现有数据流的机会。 - 剖析数据
数据结构中定义的数据格式和从实际数据中推断出来的格式
数据的质量,包括null值、空或默认数据的级别
数据值以及它们与定义的有效值结合的紧密联系
数据集内部的模式和关系,如相关字段和基数规则
与其他数据集的关系 - 收集业务规则
评估潜在的源数据集和目标数据集的数据
管理组织中的数据流
监控组织中的操作数据
指示何时自动触发事件和警报
设计数据集成解决方案
- 设计数据集成解决方案
- 建模数据中心、接口、消息、数据服务
- 映射数据源到目标
- 设计数据编排
开发数据集成解决方案
- 开发数据服务
- 开发数据流编排
- 制定数据迁移方案
- 制定发布方式
- 开发复杂事件处理流
- 维护数据集成和互操作的元数据
实施和检测
7. 工具
数据转换引擎/ETL工具
数据虚拟服务器
企业服务总线(ESB)
业务规则引擎
数据和流程建模工具
元数据存储库
8. 方法
9. 实施指南
就绪评估/风险评估
组织和文化变革
10. 数据集成和互操作治理
数据共享协议
数据集成和互操作与数据血缘
度量指标
- 数据可用性,请求数据的可获得性
- 数据量和速度,它包括:传送和转换的数量、,分析数据量,传送速度,数据更新与可用性之间的时延,时间与触发动作之间的时延,新数据源的可用时间。
- 解决方案成本和复杂度,包括:解决方案开发和管理成本,获得新数据的便利性,解决方案和运营的复杂度,使用数据集成解决方案的系统数量。