Talend Open Studio允许使用预定义的组件创建和运行Java ETL程序或Jobs。
每个组件都可以配置为“内置”组件或“存储库”组件。
对于“内置”组件,信息如何读取文件及其包含的内容:
l 在组件内定义。
l 仅适用于此组件。
l 不能与其他任何组件一起使用。
对于“存储库”组件,信息:
l 保存为元数据。
l 可以有效且一致地重用。
l 可以轻松维护,因为对元数据的更改可以传播到所有使用它的作业。
1.为定界文件创建元数据定义
1. 在项目存储库中,单击“ 元数据”,右键单击“ 文件定界”,然后单击“ 创建文件定界”。
2. 在向导的名称字段中,输入电影,然后单击下一步。
3. 要指定示例文件,请单击“文件”字段旁边的“ 浏览”,从本地磁盘中选择“ moviesSorted ”文件,然后单击“ 打开”。该文件显示在向导的“文件查看器”部分中。
4. 要定义属性类型设置,请单击下一步。在出现的向导窗口中,您可以定义设置,例如应如何读取文件,读取文件时应跳过的行数(如果有)以及要处理的最大行数。
5. 要指示文件的第一行是列名,应将其忽略,请在“预览”选项卡中,选择“ 设置标题行为列名”。注意,这样做时,“标题”复选框会自动选中值1。
6. 要刷新文件显示以反映所做的更改,单击刷新预览按钮,然后单击下一步。
7. 在名称字段中,键入movieSchema。如果示例文件的第一行包含列名,则将显示它们。如果不是,这些列将显示为第0列,第1列,依此类推,并且必须手动重命名。在猜测模式时,Talend仅读取示例文件的前五十行,并根据这些行中的数据定义列的类型和长度。应该验证显示的信息或在必要时对其进行更正。
8. 更新显示的架构以反映示例文件的结构。在这种情况下,将“标题”和“URL”字段的长度分别更改为100和250。另外,将directorID字段的类型更改为整数。点击完成。
9. 在“项目存储库”中的“元数据”下,将显示电影0.1条目以及文件属性。在条目movie 0.1下,显示元数据文件movieSchema的架构。
10. 如果需要修改属性类型或架构,右键单击Project Repository中的组件,然后选择“ Edit File Delimited”或“ Edit Schema”。
2.使用元数据配置组件
1. 创建一个新Job,并将其命名为useMetadata,然后向其中添加一个tFileInputDelimited组件。注意:默认情况下,组件配置有“内置”参数。
2. 在“组件”视图的“属性类型”字段中,选择“ 存储库”。
3. 要选择元数据,请单击出现的字段旁边的[…],单击“ movie 0.1”,然后单击“ 确定”。请注意,将显示元数据的参数集。另请注意,所有字段均为灰色,表示它们属于元数据而不属于组件。要更改模式,请单击文本“编辑模式”旁边的[…],然后选择一个选项:-更改为内置属性,仅编辑该组件的模式。-更新存储库连接以编辑存储库中的元数据架构。
4. 要查看模式,请单击文本“编辑模式”旁边的[…],然后选择“ 查看模式”。
3.使用元数据配置第二个组件
作为使用元数据的另一种方法:将其直接从存储库拖动到Designer中,然后选择tFileInputDelimited组件以使用它。
Talend允许基于多个参数(例如数据库,SAP连接和多种文件类型)创建元数据。
注意:为了说明这一点,使用了MySQL Workbench 6.3 CE和一个名为talend_dq的测试数据集。您可以使用类似的配置或自己的数据库来尝试。
4.创建数据库连接并将其定义为元数据
1. 在项目存储库中,单击“ 元数据”,右键单击“ Db连接”,然后单击“ 创建连接”。
2. 在数据库连接向导的名称字段中,输入MySql并单击下一步。
3. 在数据库类型字段中,选择MySQL。
4. 填写连接参数。
5. 要检查与数据库的连接,请单击检查。
6. 要关闭向导并创建元数据,请单击完成。
7. 若要自动检索所有表架构,请在Project Repository中右键单击MySql 0.1元数据,然后单击“ 检索架构”。
8. 单击下一步。显示连接的数据库。
9. 要选择所有表和视图,请选中数据库名称左侧的复选框,然后单击下一步。显示数据库以及所有表和详细信息。
10. 所有表模式都已作为元数据导入并且可以使用。
11. 这些表和视图显示在Project Repository中的mysql 0.1连接下。要查看表中的字段,请单击表。
5.使用元数据读取数据库表
1. 要从列表中读取表,请选择该表并将其放在作业设计器上。
2. 在“组件”窗口中,单击tMySqlInput,然后单击“ 确定”。使用存储库信息创建一个tMysqlInput组件。它使用MySql 0.1连接,对于模式,它使用元数据表tdq_values中的存储库信息。此外,Talend会生成SQL查询并将其发送到表tdq_values。
3. 要显示表数据,请添加tLogRow组件并将tdq_values组件链接到tLogRow_1组件。
4. 要运行作业,请在“运行”视图中单击“运行”。显示来自表tdq_values的数据。