1.1、什么是批处理
在现代企业应用中,面对复杂的业务以及海量的数据,除了通过庞杂的人机交互界面进行各种批处理外,还有一类工作,不需要人工干预,只需要定期读入大批量数据,然后完成相应业务并进行归档。这类工作称为批处理。
从上面的描述可以看出,批处理应用有如下几个特点:
· 数据量大,少则百万,多则上亿的数量级。
· 不需要人工干预,由系统根据配置自动完成。
· 与时间相关,如每天执行一次或每月执行一次。
同时,批处理应用又明显分为三个环节:
· 读数据,数据可能来自文件、数据库或消息队列等。
· 数据处理,如电信支撑系统的计费处理。
· 写数据,将输出结果写入文件、数据库或消息队列等。
下面是一个典型的批处理应用场景:系统A从数据库中获取数据,经过业务处理后,导出系统B需要的数据到文件中,系统B读取该文件,经过业务处理后,最后存放到数据库中。
1.2、Spring Batch
Spring Batch 作为 Spring 的子项目,是一款基于 Spring 的企业批处理框架。通过它可以构建出健壮的企业批处理应用。Spring Batch 不仅提供了统一的读写接口、丰富的任务处理方式、灵活的事务管理及并发处理,同时还支持日志、监控、任务重启与跳过等特性,大大简化了批处理应用开发,将开发人员从复杂的任务配置管理过程中解放出来,使他们可以更多地去关注核心的业务处理过程。
另外我们还需要知道,Spring Batch 是一款批处理应用框架,不是调度框架。它只关注批处理任务相关的问题,如事务、并发、监控、执行等,并不提供相应的调度功能。因此,如果我们希望批处理任务定期执行,可结合 Quartz 等成熟的调度框架实现。
1.2.1 Spring Batch架构
Spring Batch核心架构分为三层:应用层,核心层,基础结构层:
应用层包含所有的批处理作业,通过Spring框架管理程序员自定义的代码。核心层包含Spring Batch启动和控制所需要的核心类,如:JobLauncher、Job和step等。应用层和核心层建立在基础架构层之上,基础架构层提供通用的读(ItemReader)、写(ItemWriter)和服务处理。
Spring Batch的三层体系架构使得Spring Batch框架在不同的层级进行扩展,避免不同层级间的影响。
1.3 Spring Batch 2.0新特性
· 支持java5;
· 非顺序的Step支持;
· 面向Chunk处理;
· 强化元数据访问;
· 增强扩展性;
· 可配置;
1.3.1 支持非顺序的Step
Spring Batch 2.0支持条件判断执行Step的方式。在2.0版本之前,仅支持顺序执行Step:
下面代码中展示了如何配置条件Step:
1.3.2 面向Chunk处理
Spring Batch 1.X版本对数据处理默认提供的策略是面向Item处理:
在面向Item处理中,ItemReader会返回一个对象(即Item)给ItemWriter进行处理,Item的数据为提交间隔的要求时提交计算结果。例如,如果提交所要求得Item数量为3时,ItemReader和ItemWriter分别会被调用3次:
对应的ItemReader和ItemWriter为了实现回滚的场景,需要在内部定义复杂的方法(如mark标记方法,reset恢复方法,clear清除方法等)。接口ItemReader和ItemWriter在Spring Batch 1.X版本的实现代码为:
由于处理的范围是一个Item,如果要支持回滚场景就需要额外的方法,此时mark,reset,flush,和clear就派上了用场。如,在成功读/写了2个item之后,在写第三个item时发生了错误,整个事物就需要回滚,writer中的clear方法会被调用,用于清空缓存,ItemReader中的reset被调用,用于把mark方法所指向的数据游标复原。
Spring Batch 2.0中支持面向Chunk的操作,简化了ItemReader和ItemWriter接口的复杂度。面向Chunk的操作序列图如下:
按照面向Chunk的操作,如果提交间隔是3次,那么读操作被调用3次,写操作被调用1次。读Item被汇总到列表中,最终被统一写出:
面向Chunk的方案不仅更加简单更有扩展性,同时也让ItemReader和ItemWriter接口更加简洁。接口ItemReader和ItemWriter在Spring Batch 2.X版本的实现参见代码:
如代码所示,ItemReader和ItemWriter接口不再包含mark,reset,flush,和clear方法,使得读和写对象的创建更加直接。ItemReader例子中,接口非常简单,框架会为开发者把读取的item缓存起来,以防止rollback情况的放生。ItemWriter也很简单,不再是一次一个item的拿取,而是一次把整个item块都拿到,把控制权交给step前决定资源的写入。
1.3.3 增加ItemProcessor
在Spring Batch 2.0 之前,Step只依赖ItemReader和ItemWriter,在SpringBatch 2.0 中引入了ItemProcessor(负责业务数据的处理)。
通常的业务场景需要在数据写入之前,对数据进行处理,在Spring Batch 1.X版本中,可以使用组合模式,通过在读/写之间加入ItemTransformer这一层来实现:
Spring Batch 2.0 版本之后的Step,将ItemTransformer重新命名为ItemProcessor,和ItemReader与ItemWriter提升为相同的层级:
1.4 开发环境搭建
下载RELEASE 2.2.1版本(http://static.springsource.org/downloads/nightly/release-download.php?project=BATCH)(BATCH/spring-batch-2.2.1.RELEASE-no-dependencies.zip)。
下载后直接解压:
· dist:编译好的jar和源文件压缩包;
· samples:示例工程,需要maven构建项目;
因此为了编译samples项目,需要安装Maven。
【参考】
[1] 《Spring Batch 批处理框架》