随着公有云平台和私有云平台的流行,数据集成问题越来越重要。以往存储在企业内部的信息,现在要分散在不同的公有云平台上。这些信息,要进行广泛的共享。企业内部部署的系统、公有云平台上部署的系统,彼此之间都需要共享信息。
与云计算相关的数据集成,在今天,还多是简单的数据复制,从公有云复制到企业内部系统,从公有云复制到公有云。和以往企业内部系统之间所用的传统数据复制技术没有区别。比如,企业要江SAAS 型 CRM的销售数据与企业自有数据中心的物流系统集成。 数据集成软件,保证了销售数据和其它信息,能够在两个不同系统中匹配上。
云计算的快速发展,将给数据集成技术带来那些有意义的变化? 传统的数据集成方法,也就是简单的数据复制和信息解析,在下面10年将成为过时的概念。 为了满足云计算的需要并实现其价值,数据集成技术将在新方向上快速发展。 老的数据集成市场也将被颠覆。有些数据集成技术,都已经快有20年的历史了。
忘掉过去的数据集成经验吧,新的策略、方法和技术,都将在云计算时代占据主流。
数据集成的演进
数据集成的演进,大概上开始于90年代中期,以企业应用集成为起点。 为了在数据中心中 SAP和PeopleSoft之类的系统,进行信息同步。
老的数据复制集成,很好懂。 从源系统中抽取信息,然后进行数据结构和数据内容的修正,再导入到目标系统中。 往财务系统中添加新客户,或者更新库存状态,都会这样执行操作。
传统数据和应用集成市场的玩家,包括 Tibco, IBM, Software AG, Pervasive/Actian 和 Informatica。这些厂家中的大多数,也开始与时俱进,提供面向云计算的数据集成,或者以云计算的模式提供集成服务。但是,这些成熟的厂家提供的云计算数据集成,不一定更好,他们仅仅是早一点而已。
新的厂商包括 WSO2, Red Hat, Jitterbit, Boomi/Dell, Composite/Cisco, CASTIRON/IBM, Liaison Technologies, Scribe,还有其它很多。 这些科技公司,是数据集成技术的第二波浪潮,专为了面对急剧变革中的企业数据集成需求。 这一波浪潮中,出现了新的方法,例如数据虚拟化或者数据抽象(例如Red Hat, WSO2, Informatica 和 Composite/Cisco)。
在下面的途中,可以看到现在这个阶段(2010-2014),焦点还集中于现有的集成技术,包括传统的和非传统的。 所执行的任务包括:数据复制、语义解析、数据清洗、海量数据迁移。 这些技术帮助企业在云-云之间,云-企业之间,或者企业-企业之间传输数据,以支持核心业务流程。 过去的几年里,这些技术一直在演进以适应混合云以及多云架构,当然还要适应巨大数据集的出现(大数据)。
随着云计算技术的成熟,数据集成将呈现新的形式、扮演新的角色,并贡献新的价值。
数据在云上存储,和在非云系统上存储的方法不同。新的数据集成的功能应能够分别处理这两种存储方法,并高效进行数据结构和内容的的处理,从而让目标系统如同访问本地数据一样。海量数据迁移包括ETL(抽取-转换-加载)功能,并包括海量数据的定时迁移、内容和结构的变更,以满足目标系统,例如云数据仓库的需要。
数据清洗技术,让数据集成过程中,能够去掉或者改正错误的和不准确的数据。 在数据集成的其它操作中,尤其是从一个系统传输信息到另一系统时,都需要进行数据清洗。
从上面的图可以看到,随着云计算成为企业的主流平台,数据集成的世界也需要跟进。 要开拓和扩展新的能力。 包括:
智能数据服务搜索
数据虚拟化
数据编排
数据标识
所谓智能数据服务搜索,指的是一种数据集成技术,能够自动发现和定义数据服务。这种技术将成为云计算和非云计算系统生产数据和消费数据的主流机制。就是说,我们可以搜寻到,或者重新搜寻到企业内部存在的数据服务。更重要的是,搜寻到公有云上的数据服务,找到数据服务的位置、提供的功能,以及如何访问这些数据服务。 企业就能够利用这些编目来理解所有可用的数据资产,并利用这些有用的数据资产来支持核心业务流程。
数据虚拟化,并非一个新概念。但将会越来越受欢迎。因为企业希望利用新的虚拟化结构来重新定义现有的数据库,并把这些数据库以定义好的数据服务的形式,提供给外部。完全可以用新的虚拟数据库结构,置于现存数据库之上,从而重新定义数据库的访问方式。 这样一来,就不需要冒险去重新构建后台数据库,便可以满足云计算系统的需要。
数据编排指的是,定义数据之间进行交互以形成方案的能力。 和服务编排类似。 定义混合的数据点,也许是销售和客户,以形成新的数据服务,来服务企业内部和外部用户。这样,使用数据的用户,将能够更好控制数据对每一应用视图的用途,而不必更改数据的物理结构和内容。
数据标识指的是,从结构和实例两个角度连接数据到用户和机器的能力。 主要控制谁,以及什么系统,能够消费数据,并看到内容。 这对适应各种变更和扩展的法规,以及各种内部数据安全策略,带来很大便利。 数据容器控制对数据的访问,以及设置在数据中的数据标识规则。 这将会是一个通用的机制,用在企业和公有云提供者之间。
想一想共享的企业业务服务诞生之后,一定会随着公有云平台上的业务系统数量而快速发展。 使用服务越方便,数据的复用能力也会更强。 根本不必建新的数据库,或者数据服务实例,人们只需要从结构和内容上,对现有系统的数据进行重新利用即可。这种能力一定会发展起来。比方说,可以从另一个企业提供的数据,形成历史销售数据库,对一个新建的系统提供欺诈模型。用户并不需要理解复用的数据集的实际细节。在复用的时候,数据已经重新进行自我定义了。
和数据标识类似,身份识别和集中信用也是控制数据访问权限机制的新一代技术。 通过提供集中化的位置去验证数据(结构和内容),验证要访问和操作数据的用户和设备,把数据标识提高到另一个层次。这种机制意味着我们能够了解数据存放的位置,并将授权用户匹配到授权的数据,从数据库、对象到实例。 再次强调,这种方法预设了一种通用的标准。
预测从来就不是科学。但很肯定的是,5年内,数据集成技术的市场将发生巨大变化。