Kettle 文件操作

上一篇:etl bigdata
更多信息查看:https://blue-shadow.top

数据无处不在,文件作为一个总要的数据载体,是最常用的数据存储格式。但广泛使用以多种方式存在,如fixed宽度、逗号分隔值、电子表格,甚至自由格式。PDI具有从各种实体读取数据的能力。

读取文件实例

在Design窗口中:右键Transformation --> New ,这样的方式创建新的Transformation

在Input分类中 :选择Text File Input --> File 标签中输入要使用文件的路径(也可以通过浏览查找) --> 点击Add添加。

在Content标签下配置: 设置Separator为 --> 勾选Header,表示使用表头

在Fields标签下配置字段: 点击 Get Fileds 自动匹配列

3-file-data.gif

从上面的操作中,可以发现:

1 在Input分组中,有针对绝大多数的文件文件数据源的Step。

2 使用Text File Input中的注意的配置点有:
File标签 :定义数据源文件,可以是文件夹、文件
Content标签 :对文件格式,是否使用分隔符、编码格式、是否使用标题行等。
Fields标签 :通过Get Fileds按钮,获取字段信息

Text File Input

在操作练习中,尽量尝试不同格式的文件,使用不同类型的 文件Step。

对于文件操作中一些常见的问题:

1 最显而易见的,无法找到相关的文件或文件夹的情形。
将前面操作的实例说明,将在Text File Input配置的文件名修改,然后在预览数据将出现如下的错误提示。

3-input-file-miss
No preview rows found
Sorry, during preview there weren't any rows to display for this step.

2 文件存在,但是文件中内容为空。
将前面操作的实例进行说明,在Text File Input配置的文件的内容删除,或配置一个空文件。预览数据出现和无法找到文件相同的错误。

3 文件的Content和Filed不匹配,将前面操作的实例中的Content标签下的Seperator字段改为','然后预览数据时间出现如下的错误。

2020/06/16 10:54:41 - Text file input.0 - ERROR (version 7.1.0.0-12, build 1 from 2017-05-16 17.18.02 by buildguy) : Unexpected error
2020/06/16 10:54:41 - Text file input.0 - ERROR (version 7.1.0.0-12, build 1 from 2017-05-16 17.18.02 by buildguy) : org.pentaho.di.core.exception.KettleException: 
2020/06/16 10:54:41 - Text file input.0 - Error converting line
2020/06/16 10:54:41 - Text file input.0 - 
2020/06/16 10:54:41 - Text file input.0 - Couldn't parse field [Number(3, 1)] with value [5.1,3.5,1.4,0.2,setosa], format [#.#] on data row [1].
2020/06/16 10:54:41 - Text file input.0 - 
2020/06/16 10:54:41 - Text file input.0 - Unexpected conversion error while converting value [sepal_length String(3)] to a Number
2020/06/16 10:54:41 - Text file input.0 - 
2020/06/16 10:54:41 - Text file input.0 - sepal_length String(3) : couldn't convert String to number 
2020/06/16 10:54:41 - Text file input.0 - 
2020/06/16 10:54:41 - Text file input.0 - sepal_length String(3) : couldn't convert String to number : non-numeric character found at position 4 for value [5.1,3.5,1.4,0.2,setosa]

4 文本内容格式和配置的Filed字段类型不匹配,如对文件中的为String类型,但在Text Input File中配置为Number类型。
在预览时,将会在出现无法完成类型时就停止,所以只能看到一部分的数据,错误的信息如下:

2020/06/16 11:37:13 - Text file input.0 - ERROR (version 7.1.0.0-12, build 1 from 2017-05-16 17.18.02 by buildguy) : Unexpected error
2020/06/16 11:37:13 - Text file input.0 - ERROR (version 7.1.0.0-12, build 1 from 2017-05-16 17.18.02 by buildguy) : org.pentaho.di.core.exception.KettleException: 
2020/06/16 11:37:13 - Text file input.0 - Error converting line
2020/06/16 11:37:13 - Text file input.0 - 
2020/06/16 11:37:13 - Text file input.0 - Couldn't parse field [Number(3)] with value [a], format [] on data row [20].
2020/06/16 11:37:13 - Text file input.0 - 
2020/06/16 11:37:13 - Text file input.0 - Unexpected conversion error while converting value [sepal_length String(3)] to a Number
2020/06/16 11:37:13 - Text file input.0 - 
2020/06/16 11:37:13 - Text file input.0 - sepal_length String(3) : couldn't convert String to number 

将数据写回到文件

前面的例子主要演示如何从文件中读取数据和进行配置,在经过一些转换后的数据。可以存放会文件中,所以接下里将演示将csv文件内容
写入到json文件中。

  • output分组 : 选择Json Output , 并和前面的Text File Input通过Hop连接。
  • General标签 : 存储的位置、写入的方式、编码方式等。
  • Fields标签 : 点击Get Fields,配置列名到Json元素的关系。
json output

写入到Json后的数据演示如下。

{"data":[{"sepal_width":3.5,"species":"setosa","petal_width":0.2,"sepal_length":5.1,"petal_length":1.4}]}{"data":[{"sepal_width":3.0,"species":"setosa","petal_width":0.2,"sepal_length":4.9,"petal_length":1.4}]}{"data":[{"sepal_width":3.2,"species":"setosa","petal_width":0.2,"sepal_length":4.7,"petal_length":1.3}]}{"data":[{"sepal_width":3.1,"species":"setosa","petal_width":0.2,"sepal_length":4.6,"petal_length":1.5}]}{"data":[{"sepal_width":3.6,"species":"setosa","petal_width":0.2,"sepal_length":5.0,"petal_length":1.4}]}{"data":[{"sepal_width":3.9,"species":"setosa","petal_width":0.4,"sepal_length":5.4,"petal_length":1.7}]}
....

Kettle的参数

在Kettle中有 variable 、argument 、parameter供使用。

  • variable(变量)

variables可以叫做environment variables,用来设定环境变量的,可以把它认为是编程语言里面的全局变量。变量可以用在转换或作业中,可以通过在转换中使用Set Variable步骤定义或在kettle.properties文件中定义,对于kettle.properties文件可以通过: Edit --> Edit the ketle.properties file

kettle.properies
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352