基于元数据驱动的ETL架构设计

基于元数据驱动的ETL架构设计BI管理信息化文章中国最具影响力的企业信息化门户网和在线社区 http://articles.e-works.net.cn/BI/Article71357_1.htm

ETL(Extract-Transform-Load)是数据仓库获得高质量数据的重要环节,一个设计良好、功能强大的ETL工具对于构建一个数据质量、结构良好的数据仓库有着重要意义。首先分析了传统ETL架构的局限性以及元数据管理对ETL过程的重要性,然后对传统的ETL架构进行改进,结合元数据管理思想.提出并设计了一种新的基于元数据驱动的ETL架构。结果表明,该ETL架构通过增加数据中转区并使整个ETL过程在勇数据的指导下进行,有效保证了数据仓库的数据质量,提高了数据装载的效率,减轻了数据源和目标数据库的压力,
** 2.2 ETL架构及其模块** 基于以上设计思想,可以设计出如图3所示的ETL架构。

放大图片
图3 ETL架构
该架构主要由元数据模块、数据中转区、数据抽取引擎、数据转换引擎、数据加载引擎以及通用数据访问接口等几部分组成,并具有元数据管理、数据抽取、数据转换、数据清洗、数据加载、异常处理等功能。 ETL架构主要模块功能详述如下: (1)数据源DS(Data Source) 各种异构数据源为数据仓库提供基础数据。可以是Oracle数据库、关系型数据库、纯文本数据、XML文件等。各种工具、连接和服务都部分依赖于数据的来源以及输出的数据内容。 (2)数据仓库(DW) 整个企业的数据中心,用于存储从业务数据中抽取出来的、经过清洗转换后的数据。数据仓库包括维表与事实表的存储,数据仓库的数据结构是根据用户分析的主题需要来组织的,将所有数据组合为对组织的单一而又有相关性的视图。 (3)通用数据访问接口 目前已有多种可选的通用数据访接口,如ODBC,OLEDB,TDBC等,其中JDBC支持跨平台、跨网络访问数据。本文采用JDBC和ODBC相结合的技术,使用SQL、PIMSQL、JAVA的完整功能,对外部数据源进行透明访问。 (4)数据抽取引擎 按照元数据提供的抽取规则,通过通用数据访问接口访问各种异构数据源,并将数据抽取成统一格式的标准数据集。 (5)数据中转区数据 中转区DSA(DATA-STADING-AREA)是数据准备的工作台。数据中转区的作用主要包括: ①可快速读取数据抽取引擎传来的大量数据;缩短数据采集时间,减少数据采集对应用系统的冲击。 ②实现对多个数据源的统一数据采集,提高了数据采集的可靠性、一致性。 ③暂时保存要加载的数据,避免了数据转换引擎对数据源的直接操作,减少了对数据源的影响。 ④在数据中转区对数据进行清洗转换操作,增加数据转换的有效性和可靠性。 (6)数据转换引擎 通过元数据提供的转换规则,对临时存储在数据中转区的数据进行转换处理,得到相应的数据结果。 (7)数据加栽引擎 按照元数据库提供的数据加载元数据,负责处理数据加载环境,通过通用数据访问接口将得到的数据加载到目标数据库中。 (8)元数据模块 包含元数据库、元数据定义模块、元数据管理模块和元数据异常处理模块。 元数据定义模块实现数据结构扫描和元数据生成的功能。元数据模块中的元数据定义工具通过查找数据库的数据字典来扫描元数据库和目标数据库的体系结构信息,如表名、字段名、字段数据类型、字段精度、主外键约束、索引等,并存储在元数据库中;在用户定义了ETL规则后,系统从元数据库中取得元数据库和目标数据库的体系结构信息,建立从元数据库到目标数据库的字段映像,再定义流程中的抽取规则、转换规则和加载规则,定义完成后把规则保存到元数据库中。 元数据管理模块对元数据库中的元数据进行修改和维护并保存到元数据库中。 元数据异常处理模块的作用是:如果ETL过程中出现异常,则将异常信息存储到元数据异常处理模块中,异常处理模块将对这些异常进行处理并按照元数据的格式要求存入元数据库中,以备元数据管理模块对其进行处理或反馈给用户处理。 (9)流程控制与用户交互界面 一个好的ETL系统需要友好的可视化工作界面。本文采用JSP网页技术来开发可视化的工作接口。JSP是一种实现普通静态HTML和动态页面输出混合编码的技术,具有系统的多平台支持、强大的可伸缩性、通过网络发布实现远程监控等特点。在运行过程中,JSP服务器访问元数据库,向客户端展示数据源类型,用户根据JSP页面向导提示,很好地控制ETL流程,逐步实现整个数据ETL工作过程。 ** 2.3 ETL元数据管理** ETL过程是构建数据仓库的基石和灵魂,而元数据又是ETL过程的“指挥中心”,一个完整的ETL过程包含许多元数据,如:业务数据源的元数据、数据仓库的元数据、抽取任务的元数据、转换规则的元数据、数据库操作元数据、异常元数据、ETL任务调度的元数据等。如何妥善地存储并管理这些与数据抽取、转换、加载等有关的所有元数据信息,已经关系到ETL过程能否顺利完成,而且影响到后期的使用和维护。 在ETL过程中元数据管理主要需要完成两方面的工作。 (1)建立元数据模型 本文采用公共数据仓库元模型CWM(Common Warehouse Metadata)。进行ETL元模型的设计。作为一个元模型,CWM已提供了建构元数据所需的语法和语义,并包含了ETL过程所需的方方面面的元数据模型,具有良好的通用性、可扩展性和可重用性。 (2)建立元数据管理系统 采用前人提出的CWM元模型,并在此基础上完成了ETL元数据管理系统的框架设计如图4所示。图中ETL元数据管理系统主要包含以下几个模块:
放大图片
图4 元数据管理系统框架
①元数据模型。这个模块主要定义了数据仓库的物理模 ②数据加载转换规。定义了向数据仓库中导入数据时所使用的规则和方法,用脚本语言来实现。 ③映射关系。建立了业务模型和数据仓库中数据物理模型的映射。 ④自然语言查询。用户可以用一种自然语言来实现查询,实现元数据管理的智能化。 该元数据管理系统通过人机交互,根据元模型、ETL规则、映射以及查询模块,可以方便地实现元数据信息的存储、修改、查询和管理。3 比较讨论 由前文可知,传统的ETL架梅的优点是结构简单、易于控制,但缺点也显而易见:在传统的ETL柒构中,数据的转换是在数据中心的数据库上进行,由于数据中心要处理多个数据源的数据,这些数据的转换会给数据中心服务器造成很大的压力,同时降低了数据载入到数据中心的效率。 改进后的ETL架构的优点在于:①加入数据中转区,将数据抽取、转换和加载分割开。②将抽取到的大批量数据先放入缓冲区即数据中转区中,再通过转换服务把临时存储的数据进行转换清洗,然后装入到目标数据仓库中。这样明显提高了数据装载的效率,大大降低了数据源和目标数据库的压力。 此外,元数据的管理也是本文研究重点。改进的ETL架构中对元数据进行管理,使ETL过程能在元数据的指导和控制下进行,保证了ETL的过程质量。4 小 结 数据仓库是构建高效决策支持系统的支撑平台,而将多种异构数据资源整合迁移到数据仓库是构建数据仓库过程中最复杂、最重要的工作,ETL系统的目的就是使得这个工作变得便捷和高效。本文从实践出发,对传统的ETL架构进行改进,提出并设计了基于元数据管理的ETL架构。由于整个ETL过程都在元数据的控制下进行,实现以元数据为中心、元数据管理和驱动的ETL过程,其功能易于扩展,具有很强的灵活性和适用性。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容