DG知识点整理-数据集成与互操作

//本系列是基于DMBOK2的学习过程中的知识点整理,方便学习与回顾//

数据集成与互操作描述了数据在不同的存储,应用和组织的内部或之间进行移动和整合的过程。其中数据集成指的是将数据整合成物理或虚拟的一致格式。 数据互操作是多个系统之间进行通信的能力。

一、基本概念

    1.1 目标

            它的主要目的是为了实现对数据移动的有效管理,包括

            1)按照所需格式,及时地提供安全、合规的数据

            2)构建开放共享模式和接口,降低解决方的成本和复杂度

            3)识别有意义的事件,自动触发预警和动作

            4)支撑BI、数据分析、主数据管理,并致力于提高运营效率

    1.2 术语

            1. ETL - 抽取&转换&加载

                    抽取: 从源数据中提取所需的数据

                    转换:让选定的数据与目标数据库的结构相兼容。转换的内容包括:格式,结构,语义,消除重复,重新排序

                    加载:在目标系统的物理存储或呈现转换结果

            2. ELT:如果目标系统有更强的的转换能力,则处理顺序调整为 抽取--加载--转换

            3. 映射(mapping): 定义了源数据结构到目标系统结构的转换规则,映射关系中要包括

                        1)元数据和目标数据的技术格式

                        2)制定源数据和目标数据之间所有中间暂存点所需的转换

                        3)描述最终或中间目标数据存储区中每个属性的填充方式

                        4)描述是否需要对数据值进行转换

                        5)描述需要进行哪些计算

            4. 时延(latency):从源数据生成数据到目标系统可用该数据之间的时间差

            5. 耦合(coupling):两个系统之间交织的程度

            6. 编排(orchestration):用来描述一个系统中如何组织和执行多个相关的流程

            7. 数据交换标准:组织和团队之间使用的标准化数据共享格式,比如国家信息交换模型(NIEM)是美国政府机构的数据交换标准 

    1.3 原则

            1)采用企业视角确保未来的可扩展性设计,通过迭代和增量交付实现

            2)平衡本地数据需求和企业数据需求,包括支撑和维护

            3)确保数据集成和互操作设计和活动的可靠性。业务专家要参与ETL规则的设计和修改。

二、人员

    2.1 角色与职责

            数据集成解决方案通常被视为纯粹的技术性解决方案,可以由集中管理的团队负责,也可以由应用程序团队负责。它的成功需要基于深入的业务知识,需要有业务专家来审查数据转换的映射设计。

三、相关技术

        3.1 ETL/ELT

            1. 批处理 

                它是以文件形式执行的数据移动。批处理要做好时机选择,一般是业务逻辑处理结束后

                 可以通过采用微批处理,来实现快速处理和低延迟

               2. CDC-变更数据捕获

                    1)基于数据的CDC技术: 1-通过识别源系统填入的特定数据字段(时间戳,标记) ; 2-源系统完成数据更改时同时添加到某个标识符列表;3-源系统复制已经变化的数据(?有疑问?)

                    2)基于日志的CDC技术:复制和处理数据活动日志e

         3.2 复制(replicate)

            复制是指在多个物理位置上维护了数据集的精确副本,能为不同位置的用户提供更好的响应速度。

            如果数据更改动作会发生在多个副本站点,不适合使用复制,可能存在数据不同步风险

         3.3 归档(archive)

            将不经常使用的数据移动到成本较低的存储方案中

            归档技术需要被监视,确保新技术不会导致旧格式的存档无法读取

          3.4 定义共享消息格式       

            拥有规范格式可以显著降低企业中数据互操作的复杂性     

          3.5 交互模式

                交互模式描述了系统之间建立连接以传递数据的方式

                1. 点到点模式

                    两个系统直接相连,相互传递数据

                2. 中心辐射型(hub-and-spoke)

                    它将共享数据整合到一个中心数据中心,各个系统和应用和它进行数据交换。

                    数据中心提供一致的数据试图,对源系统的性能影响有限。

                3. 发布/订阅型

                    由提供数据服务的系统,向需要的目标系统自动推送数据。

         3.6 复杂事件处理(CEP)

                Complex Event Processing是指将多个来源的数据进行合并,通过分析与预测得出结论

        3.7 数据联邦与虚拟化

                 当数据分散存在于不同的数据存储中时,可以通过逻辑方式来聚合

                数据联邦(data federation):提供对各个独立数据存储库组合的访问权限 

                数据虚拟化(data virtualization):使分布式或异构数据存储能作为单个数据库来访问

         3.8 DaaS

                数据即服务指的是从供应商处获得许可,并由供应商提供数据

         3.9 云化集成

                IPaaS: 通过云提供系统间的数据集成服务                           

四、活动

      4.1 规划和分析

                1)定义数据集成和生命周期需求: 包括适用的法律法规,业务目标,以及实现这些目标需要的数据和建议的技术方案

                2)执行数据探索: data discovery的目标时为数据集成工作确定潜在的数据来源,同时它还包括针对数据质量的高级别评估。 数据探索会生成和完善组织的数据目录。

                3)记录数据血缘:数据血缘记录了数据时如何在一个组织中流动的信息。

                4)剖析数据:data profiling是对数据内容和结构的检查。它包括1-定义的数据格式与真实数据体现的格式; 2-数据的数量(null,空, 默认值); 3-数据值分布情况以及与有效值的对比;4-数据集内部的模式和关系; 与其他数据集的关系。 数据剖析包括了验证数据相关的假设。

                5)收集业务规则:包括业务术语定义,相互关联的术语的事实、约束、行为断言以及派生。

      4.2 设计数据集成解决方案

            1)设计数据集成解决方案:选择交付模型,并设计数据服务或交互模式

            2)建模数据中心、接口、消息和数据服务

            3)映射数据源到目标

            4)设计数据编排

      4.3 开发数据集成解决方案

            1)开发数据服务: 开发服务来获取、转换和交付指定的数据,并且匹配所选的交互模型

             2)开发数据流编排:利用调度器管理执行已开发的数据集成组件

            3)制定数据迁移方法

            4)制定发布方式

            5)开发复杂事件处理流

             6)维护数据集成和互操作的元数据

    4.4 实施和监测

            启用已开发并完成测试的数据服务,对数据处理过程建立运行状态监控,并建立度量指标以及问题反馈机制。

            数据交互功能的SLA必需与参与交互的系统的最高SLA要求一致。

五、工具与方法

    5.1 工具

          1) 数据转换引擎/ETL工具

          2)数据虚拟化服务器

          3)企业服务总线

          4)业务规则引擎:允许非技术用户管理系统的业务规则

          5)数据和流程建模工具

          6)数据剖析工具

          7)元数据存储库

    5.2 方法

            利用SOA/EAI实现程序间的松散耦合;使用Hub-and-spoke模式; 创建标准规范的接口。                  

六、治理

        1. 数据消息、模型和数据转换规则的设计决策,必须由商业因素驱动;

        2. 在开发接口或以电子方式提供数据之前,应制定一份数据共享协议或谅解备忘录(MOU),来规定交换数据的责任和可接受的使用用途,并由业务数据主管批准

        3. 前向和后向数据血缘对数据流的更改非常必要,需作为元数据的关键部分进行管理

        4. 度量指标:数据可用性,数据量和速度,解决方案成本和复杂度



参考资料

DAMA-DMBOK2中文版

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容