一个“简单”的任务,把mysql的sql文件迁移至oracle数据库,这里记录一下遇到的各种坑
首先在本地装一个mysql,把sql文件导入到本地库,这里非常简单不再赘述
使用kettle连接mysql时,我下载的是mysql8,从官网下载了mysql的JDBC-jar包-8.0版本放入kettle的lib下,但是发现连接不上,换回5.1后连接上,猜测kettle不兼容8.0版本
好了,现在构想如何导入oracle数据库,表文件有10多个,一个个导非常简单并且麻烦,如下图所示
还好kettle有批量导表自动生成功能
但是自动创建的表是没有约束的,且直接运行报错的概率很大
所以构想通过建立job的方式一次性导入多张表,并且之后如果还需要导其他数据时通过修改参数可以达到复用的目的,通过网上资料借鉴,整理实现了一个较为简陋的job
- 建立总job
这个是job工程,无需多说
- 获取表名
表输入中的sql语句
$ select table_name from information_schema.tables where table_schema='local_data'
- 子job
为什么要用子job?在总job中需要勾选执行每一个输入行,这样从上一个转换获取到的每一个表名都会单独作为参数传递进子job执行一次,尝试使用过转换勾选此选项,没有产生预期效果
(1). 设置变量
将之前获取的结果设置为变量名供后续转换使用,因为设置的变量无法在当前转换中使用
(2). 输出
这样所有的工程就完成了?
输出表时需要目标库中存在此表,暂时没有找到自动生成创建oracle表语句的功能,并且在进行此job时我不可能挨个挨个手动创表,我设想使用python连接mysql读取表结构,然后按照oracle语句进行输出创建表语句,但是这也很麻烦,需要判断的很多,最后经过同事建议使用PowerDesigner的工具进行转换
PowerDesigner
- 读取mysql数据库
这里需要去官网下载ODBC安装,我下载的PowerDesigner破解版是32位,所以ODBC也必须是32位的,即便我的系统是64位
安装后在系统中添加好数据源,注意是32位的
全部取消选择后勾选需要的表
生成如下工程
- 生成oracle创表语句
选择转换
选择转换oracle11g
之后数据表就已经转换为oracle了,只需要找到建表语句就可以了
生成的语句不能直接使用,其中不仅包含了创建表语句,还有删除表、创建用户、删除用户、触发器等,根据需要进行删除
创建表的语句也需要进行修改,这里我后续会写一个python脚本进行简单的处理,暂时用替换+手工的方式进行
遇到的坑
- kettle报错 列名无效:16,标识符无效,找不到表
原因是没有对象,PDM生成的oracle语句创建表时所有列名以及表名都用双引号,需要去掉,另外列名有可能和oracle的保留字符冲突,比如level,这类型的列名不能去掉双引号 -
列名过长
由于oracle对列名的长度有限制,最长30个字符,而mysql无此限制,暂无解决办法,kettle导入时含有此类表单独导入导出,将列名修改至30个字符
- BOOLEAN错误
这个错误简直坑爹,由于对数据库报错不是特别熟悉,kettle的报错信息也没有具体到哪一张表哪一列,我找了很久才找到报错的那列数据,原因就是oracle没有布尔类型,在转换时oracle的相关类型改为了INTEGER
解决方法
暂时含有空布尔列的表需要单独导入导出
除此之外尚存问题:自增长问题
oracle数据中无自增长约束,只有使用squence实现类似功能,pdm转换时会生成对应的代码,但是创建squence默认为从1开始,而源数据的自增长列不一定是从1开始,且自增长时按照插入数据顺序进行增长,源数据并不一定时按照自增长列进行排序的,如果想实现数据的完全拷贝,就不能使用oracle的squence,如果对此无要求,则可建立
kettle也可生成sequence,但是限于使用kettle插入时,并没有在oracle中创建触发器
表输出时将id更换为增加序列的字段sid