Kettle 小结

接触了Kettle也有一段时间了,挖个坑总结一下。

Kettle的使用和总结,是基于Pentaho解决方案。这本书虽然网上认为是进阶书籍,但在实际的使用过程中,发现也是入门的绝好方式。书中对Kettle有了很完善的使用方法,介绍了大多数的使用方案。整体的流程可以结合实例进行参考,通过该书入门Kettle是一种不错的方式。

具体的Kettle安装,使用网上也有很多。源码的分析在网上也是有的(其实我还没有到看源码的地步)。就我个人的理解而言,Kettle对大多数的数据库操作进行了封装,在使用中可以方便的调用,减少写代码时候的对照。p.s.手写过移库的操作就知道,有些库的字段命名感人,对照起来还麻烦。

在数据迁移的过程中,整体的流程是 连接 →表名、字段名获取→数据读取并进入缓冲池→数据的输出。在连接时,调用了驱动;字段名、表名获取调用了sql语句;在Kettle缓冲区中,可以设置批量操作、、事务、分区\集群,并发等;输出同输入。在这些部分中,很明显的可以发现,Kettle减少了我们对底层的操作,让开发者可以集中注意力于数据的迁移,数据的清洗等过程。在使用的过程中,方便。但具体的实践过程中,也有其他的问题。

以下是我在使用时遇到的问题。

1.增量更新问题

增量更新有4种方法,当时选取的是根据时间戳进行增量更新。在SQL Server 2008 R2中,时间的类型是DateTime,在表输入的过程中,发生的问题是,这个DateTime类型和Kettle的当日的类型是匹配不上的,DateTime会显示为诡异的0.0000000020170307这种形式(乘以较大数输出发现的),但Kettle的日期形式是timestamp类型的,两者匹配不上!!!当时的心情是崩溃的,先是写死了一个固定的日期设定,发现在实际生产中不现实,遂弃用。再是自己手动增加一个timestamp类型匹配,然后被领导否了,拒绝在生产库上加奇怪的字段。最后的解决方案是在SQL语句中过滤,用了DateDiff函数判断是否在更新时间内产生新数据,从而获得结果。

2.定时问题

Kettle中自带定时,在job中的start中,但是。。。不好用啊。。。只要你设置了重复启动这个选项,你的job基本上是跑不动的,所以。。。心塞塞啊。最后没办法写了批处理文件来调用,但是时间间隔这东西,貌似也只能控制在一定范围内了。。。此外,这里提供Tips。在配置java环境时,可以将kettle的文件目录添加到Path中,这样调用Kitchen时会减少很多的操作。

3.端口占用

当时,历经了入门的蛋疼阶段,总算磨出了第一个增量更新,虽然很简陋,但是本机上还是跑的很欢了。于是领导给了一台测试机跑了跑,然而第二天就跑挂了23333。被批了一顿,查了查问题,端口占用多了。增量嘛,5秒一次嘛,高并发嘛,短连接嘛,这些东西聚在一起,出现的问题是科科,端口占用多了。Kettle的转换是每个转换都是线程啊,当时还作死改了并发数,每个转换就占用了2,30个端口,要增量的库一多,BOOM。解决:连接池,事务。在连接池中设置连接数,会显著的减少端口数,使用唯一的连接这个选项可以将转换进行事务操作,减少因为奇怪的问题导致数据库的污染。

4.mysql中文的操作和大数据的插入

mysql的jdbc。。。不作评价。。。移动到库里是???这种的,需要在连接选项时设置parameterEncoding utf8。本来在本地是正常的,一到生产上就蛋疼,事实证明,备份很重要,多试错也很重要。还有就是大数据插入问题,当你调用jdbc时,会惊讶的发现mysql的jdbc驱动为什么插入库这么慢???这时,你就需要去加几个字段了,有三个字段需要修改,

useServerPrepStmts=false

rewriteBatchedStatements=true

useCompression=true

改了后,有飞一样的感觉。

总结

Kettle这货,在迁移的时候还是很好用的。但是很底层的事情,需要你自己去解决。当然,现在的开源软件也是很成熟的。但是,貌似厉害的开源都被收购了(mysql,sun),所以入坑要谨慎,毕竟公司省的就是你的劳动力钱,否则为啥放着现成的BI软件不用,找你从头开始学。最近也有很多待解决的问题,比如性能问题,Kettle这货一开起来就是70的cpu使用率,在批处理的调用下,如果你开了其它东西,性能会慢很多,当然,貌似这个值是固定的,只要你cpu够好,数值还是很低的。还有,在增量时,在杂项中选择将日志记录到数据库,会时不时显示有错误,但是在Kitchen执行的过程中,写入的error日志中却找不到。很诡异的问题。。。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容