接到一个数据采集的需求,要求从一个远程数据库中将固定几张表的数据采集到本地数据库中,进行数据清洗工作,同时将缺失的数据补全。ps:请忽略本地数据库,因为现实原因生产库在短期内不能上线,远程数据库不可能同意建立dblinlk的请求,所以数据库脚本层面上解决问题的思路被我抛弃了,而且清洗过程中用到了一些java的脚本,数据库程序中没有现成的函数,所以最终结果是我需要写一个采集程序,定期执行采集脚本。
采集比较简单,直接连接远程数据库,用jpa、mybaits等成熟的产品直接写查询sql就行了,这里我采用的架构为beetlsql,理由请自行百度吧。
采集相关的日志表设计
LOG_ID NUMBER(17) 主键
TABLE_NAME VARCHAR2(200) 表名
DA_TIME DATE 抽取时间
BATCH_NUMBER NUMBER(15) 批次号
DA_STATUS NUMBER(1) 1、开始抽取2、抽取成功3、抽取失败回滚成功
DA_COUNT NUMBER(10) 抽取数据条数
主键,不解释了,抽取时记录抽取时间,开始抽取执行查询sql前生成抽取时间,生成批次号,维护表名,生成一条上表的记录,状态为1,表示开始抽取。
执行查询sql,将上一步中生成的批次号添加至查询的列上作为备用,查询结果信息为源表的列1,列2,。。。列n,批次号。
获取执行的结果信息,执行insert方法插入本地数据库表中,并进行trycatch,当插入执行成功时,将第一步生成的记录的状态更新为抽取成功(2),执行失败的时候根据上述生成的批次号,到本地数据库表中删除该批次号对应的数据,然后将日志状态更新为3,表示抽取失败,回滚成功。
之所以不在执行成功的时候直接写入日志的原因是程序采集需记录每次采集的时间,采集成功的状态,采集的数据量,如果执行成功才写入日志会导致失败的日志无法记录,同时也使下次抽取时间的准确性提高,不会漏采数据。
比如一开始直接执行采集,成功,写入日志成功,失败写入日志失败,那当我执行采集的时间是0:0:0,抽取sql查询需耗时10s,插入需耗时20s,那么如果在第一次采集之后5s左右有执行了一次采集,那么采集程序是无法识别上次采集时间的,因为上次采集时间实在10s查询,20s插入之后才入库的。这回造成采集程序的重复采集,对数据的唯一性,准确性打上了问号。而在采集查询之前先写入日志的话,下次采集会读取最新的状态为1或2的采集时间,将其作为上次采集时间,从而避免上述的情况的产生。