CDMP(Data Integration and Interopersbility)

数据整合和互操作性

1. 什么是数据编排,为什么如此重要

  1. 数据集成将数据整合为一致的形式(物理或虚拟),两个或多个系统可以共享数据
  2. 数据互操作性提供了多个系统进行通信的能力,两个或多个系统保持不变,并且可以一起工作
  3. DII的目标是使数据高效地移入/移出不同的数据存储

2. 介绍

语境关系图-数据集成和互操作性
  1. 数据迁移和转换
  2. 将数据合并成中心或仓库
  3. 将供应商软件包整合到一个组织的应用程序组合中去
  4. 应用程序之间和跨组织的数据共享
  5. 在数据存储和数据中心之间分配数据
  6. 归档数据
  7. 管理数据接口
  8. 获取和摄取外部数据
  9. 整合结构化和非结构化数据
  10. 提供运营情报和管理决策支持DII依赖于这些其他领域的数据管理。
  11. 数据治理。用于治理转换规则和消息结构
  12. 数据架构。用于设计解决方案
  13. 数据安全。用于确保解决方案适当保护数据的安全,无论数据是持久的、虚拟的,还是在应用和组
    织之间的移动中的数据,都能得到适当的保护
  14. 元数据。用于跟踪数据(持久化、虚拟和运动中的数据)的技术库存、数据的业务意义、数据的业
    务规则转换、数据的运行历史和数据的行踪等方面的技术清单
  15. 数据存储和运营。用于管理解决方案的物理实例化
  16. 数据建模与设计。用于设计数据结构,包括数据库中的物理持久性、虚拟数据结构,以及应用程序
    和组织之间信息传递的消息等数据结构

3. 业务驱动因素

  1. 对数据移动进行有效管理:管理数据在组织内部的存储库与 其他组织之间的双向流动过程。
  2. 维护管理成本:标准工具的应用可降低维护和人力成本,并提高故障排除工作的效率。

4. 目标和原则

目标
  1. 及时以数据消费者所需的格式提供数据
  2. 将数据物理地或虚拟地合并到数据中心
  3. 通过开发共享模型和接口来降低管理解决方案的成本和复杂度
  4. 识别有意义的事件(机会和威胁),自动触发警报并采取相应行动
  5. 支持商务智能、数据分析、主数据管理以及运营效率的提升
原则
  1. 采用企业视角确保未来的可扩展性设计,通过迭代和增量交付实现
  2. 平衡本地数据需求与企业数据需求,包括支撑与维护
  3. 确保数据集成和互操作设计和多动的可靠性。

5. 基本概念(😊)

抽取、转换、加载(ETL)
  1. 抽取
    抽取过程包括选择所需的数据并从其源数据中提取,然后,被抽取的数据会在磁盘或内存中的物理数据存储库中进行存储。最理想的情况是,如果该过程在操作系统上执行,则设计成尽可能少地使用资源,以避免对操作过程产生负面影响。在非高峰时段进行批量处理,对于包括复杂处理以执行选择或确定要提取的变更数据的提取,可以选择在非高峰时段进行批量处理。
  2. 转换
    转换过程使选定的数据与目标数据存储的结构兼容。转换包括当数据移动到目标时从源中移除数
    据、数据被复制到多个目标的情况,以及数据被用于触发事件但不被持久化的情况。
    格式变化:技术上的格式转换
    结构变化:数据结构变化,如从非规范化到规范化记录
    语义转换:数据值转换时保持语义的一致化表达
    消除重复:如规则需要唯一的键值或记录,以确保包括扫描目标、检测和删除重复行的方法
    重新排序:改变数据元素或记录的顺序以适应已定义的模式
  3. 加载
    ETL的加载步骤是在目标系统中物理存储或显示转换结果
  4. 抽取,转换,加载(ELT)
    如果目标系统比源系统或中间应用系统具有更强的转换能力,那么数据处理顺序可切换为ELT(抽取、加载、转换)。ELT允许在数据加载到目标系统后再进行转换。
  5. 映射(mapping)
    映射定义了要抽取的源数据与抽取数据的识别规则、要加载的目标与要更新的目标行的识别规则以及要应用的任何转换或计算规则。


    ETL工艺流程

    ELT工艺流程
延时
  1. 批处理
  2. 变更数据捕获
    变更数据捕获是一种通过增加过滤来减少传送宽带需求的方法,只包含在特定时间范围内更改过的数据。变更数据捕获监视数据集的更改(插入、更改、删除),然后将这些更改(增量)传送给使用这些数据的其他数据集、应用程序和组织。变更数据捕获可是基于数据的,也可基于日志。
  3. 近实时和事件驱动
  4. 异步
  5. 实时,同步
  6. 低延迟或流处理
复制

复制技术将分析和查询对主事务操作环境性能的影响降至最低。标准复制解决方案是准实时的,数据集的一个副本和另一个副本之间的更改有很小的延迟。如果数据更改动作发生在多个副本站点时,那么数据复制解决方案不是最佳的选择。

归档

不经常使用或不主动使用的数据可以转移到另一个对组织成本较低的数据结构或存储解决方案。

企业信息格式/标准模式
交互模型
  1. 点到点
  2. 中心辐射型
  3. 发布与订阅
数据集成和互操作架构概念
  1. 应用耦合
  2. 编排和流程控制
  3. 企业应用集成
  4. 企业服务总线(ESB)
  5. 面向服务的架构
  6. 复杂事件处理(CEP)
    事件处理是一种跟踪和分析(处理)关于发生的事情(事件)的信息(数据)流,并从中得出结论的方法。复杂事件处理(CEP)将多个来源的数据结合起来,识别出有意义的事件(如机会或威胁),以预测行为或活动,并自动触发实时响应,如建议消费者购买某种产品。设置规则来指导事件的处理和路由。
  7. 数据联邦和虚拟化
  8. 数据即服务
    软件即服务(Saas)是一种交付和许可模式,许可应用程序提供,但软件和数据位于软件供应商控制的数据中心,而不是获得许可组织的数据中心。
    数据即服务(Daas)的一个定义是从供应商获得许可并按需由供应商提供数据,而不是存储和维护在被许可组织数据中心的数据。
  9. 云化集成(IPaas)
数据交换标准

数据交换标准是数据元素结构的正式规则,交换模式定义了任何系统或组织交换数据所需的数据转换结构。数据需要映射到交换规范中。

6. 活动

规划和分析
  1. 定义数据集成和生命周期需求
    定义数据集成需求涉及理解组织的业务目标,以及为实现这些目标而需要的数据和建议的技术方案。定义需求的过程可以创建并发现有价值的元数据,组织的元数据越完整和准确,其管理数据集成风险和成本的能力就越强。
  2. 执行数据探索
    数据探索应该在设计之前进行。探索的目标是为数据集成工作确定潜在的数据来源。数据探索将确定可能获取数据的位置以及可能集成的位置。数据探索还包括针对数据质量的高级评估工作,以确定数据是否适合集成计划的目标。数据探索生成完善组织的数据目录。
  3. 记录数据血缘
    数据是如何被组织或创建的,它在组织中如何移动和变化以及如何被组织用于分析、决策或事件触发的。详细记录的数据血缘可包括根据哪些规则改变数据以及改变的频率。分析过程还可以提供改进现有数据流的机会。
  4. 剖析数据
    数据结构中定义的数据格式和从实际数据中推断出来的格式
    数据的质量,包括null值、空或默认数据的级别
    数据值以及它们与定义的有效值结合的紧密联系
    数据集内部的模式和关系,如相关字段和基数规则
    与其他数据集的关系
  5. 收集业务规则
    评估潜在的源数据集和目标数据集的数据
    管理组织中的数据流
    监控组织中的操作数据
    指示何时自动触发事件和警报
设计数据集成解决方案
  1. 设计数据集成解决方案
  2. 建模数据中心、接口、消息、数据服务
  3. 映射数据源到目标
  4. 设计数据编排
开发数据集成解决方案
  1. 开发数据服务
  2. 开发数据流编排
  3. 制定数据迁移方案
  4. 制定发布方式
  5. 开发复杂事件处理流
  6. 维护数据集成和互操作的元数据
实施和检测

7. 工具

数据转换引擎/ETL工具
数据虚拟服务器
企业服务总线(ESB)
业务规则引擎
数据和流程建模工具
元数据存储库

8. 方法

9. 实施指南

就绪评估/风险评估
组织和文化变革

10. 数据集成和互操作治理

数据共享协议
数据集成和互操作与数据血缘
度量指标
  1. 数据可用性,请求数据的可获得性
  2. 数据量和速度,它包括:传送和转换的数量、,分析数据量,传送速度,数据更新与可用性之间的时延,时间与触发动作之间的时延,新数据源的可用时间。
  3. 解决方案成本和复杂度,包括:解决方案开发和管理成本,获得新数据的便利性,解决方案和运营的复杂度,使用数据集成解决方案的系统数量。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容