(四)Talend创建和使用元数据

Talend Open Studio允许使用预定义的组件创建和运行Java ETL程序或Jobs。

每个组件都可以配置为“内置”组件或“存储库”组件。

对于“内置”组件,信息如何读取文件及其包含的内容:

l   在组件内定义。

l   仅适用于此组件。

l   不能与其他任何组件一起使用。

对于“存储库”组件,信息:

l   保存为元数据

l   可以有效且一致地重用

l   可以轻松维护,因为对元数据的更改可以传播到所有使用它的作业。

1.为定界文件创建元数据定义

1. 在项目存储库中,单击“ 元数据”,右键单击“ 文件定界”,然后单击“ 创建文件定界”。

2. 在向导的名称字段中,输入电影,然后单击下一步。

3. 要指定示例文件,请单击“文件”字段旁边的“ 浏览”,从本地磁盘中选择“ moviesSorted ”文件,然后单击“ 打开”。该文件显示在向导的“文件查看器”部分中。

4. 要定义属性类型设置,请单击下一步。在出现的向导窗口中,您可以定义设置,例如应如何读取文件,读取文件时应跳过的行数(如果有)以及要处理的最大行数。

5. 要指示文件的第一行是列名,应将其忽略,请在“预览”选项卡中,选择“ 设置标题行为列名”。注意,这样做时,“标题”复选框会自动选中值1。

6. 要刷新文件显示以反映所做的更改,单击刷新预览按钮,然后单击下一步。

7. 在名称字段中,键入movieSchema。如果示例文件的第一行包含列名,则将显示它们。如果不是,这些列将显示为第0列,第1列,依此类推,并且必须手动重命名。在猜测模式时,Talend仅读取示例文件的前五十行,并根据这些行中的数据定义列的类型和长度。应该验证显示的信息或在必要时对其进行更正。

8. 更新显示的架构以反映示例文件的结构。在这种情况下,将“标题”和“URL”字段的长度分别更改为100和250。另外,将directorID字段的类型更改为整数。点击完成。

9. 在“项目存储库”中的“元数据”下,将显示电影0.1条目以及文件属性。在条目movie 0.1下,显示元数据文件movieSchema的架构。

10. 如果需要修改属性类型或架构,右键单击Project Repository中的组件,然后选择“ Edit File Delimited”或“ Edit Schema”。

2.使用元数据配置组件

1. 创建一个新Job,并将其命名为useMetadata,然后向其中添加一个tFileInputDelimited组件。注意:默认情况下,组件配置有“内置”参数。

2. 在“组件”视图的“属性类型”字段中,选择“ 存储库”。

3. 要选择元数据,请单击出现的字段旁边的[…],单击“ movie 0.1”,然后单击“ 确定”。请注意,将显示元数据的参数集。另请注意,所有字段均为灰色,表示它们属于元数据而不属于组件。要更改模式,请单击文本“编辑模式”旁边的[…],然后选择一个选项:-更改为内置属性,仅编辑该组件的模式。-更新存储库连接以编辑存储库中的元数据架构。

4. 要查看模式,请单击文本“编辑模式”旁边的[…],然后选择“ 查看模式”。

3.使用元数据配置第二个组件

作为使用元数据的另一种方法:将其直接从存储库拖动到Designer中,然后选择tFileInputDelimited组件以使用它。

Talend允许基于多个参数(例如数据库,SAP连接和多种文件类型)创建元数据。

注意:为了说明这一点,使用了MySQL Workbench 6.3 CE和一个名为talend_dq的测试数据集。您可以使用类似的配置或自己的数据库来尝试。

4.创建数据库连接并将其定义为元数据

1. 在项目存储库中,单击“ 元数据”,右键单击“ Db连接”,然后单击“ 创建连接”。

2. 在数据库连接向导的名称字段中,输入MySql并单击下一步。

3. 在数据库类型字段中,选择MySQL。

4. 填写连接参数。

5. 要检查与数据库的连接,请单击检查。

6. 要关闭向导并创建元数据,请单击完成。

7. 若要自动检索所有表架构,请在Project Repository中右键单击MySql 0.1元数据,然后单击“ 检索架构”。

8. 单击下一步。显示连接的数据库。

9. 要选择所有表和视图,请选中数据库名称左侧的复选框,然后单击下一步。显示数据库以及所有表和详细信息。

10. 所有表模式都已作为元数据导入并且可以使用。

11. 这些表和视图显示在Project Repository中的mysql 0.1连接下。要查看表中的字段,请单击表。

5.使用元数据读取数据库表

1. 要从列表中读取表,请选择该表并将其放在作业设计器上。

2. 在“组件”窗口中,单击tMySqlInput,然后单击“ 确定”。使用存储库信息创建一个tMysqlInput组件。它使用MySql 0.1连接,对于模式,它使用元数据表tdq_values中的存储库信息。此外,Talend会生成SQL查询并将其发送到表tdq_values。

3. 要显示表数据,请添加tLogRow组件并将tdq_values组件链接到tLogRow_1组件。

4. 要运行作业,请在“运行”视图中单击“运行”。显示来自表tdq_values的数据。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352