BufferReader的标记重做
之前遇到一个问题,项目中有一段逻辑是处理CSV文件的,因为大部分CSV文件都是类似于Excel,第一行作为表头,或者每行的column数量一致。但是新的CSV文件中前几行使一些额外信息。这就暴露了原来逻辑的一个问题,原来是将第一行的column数作为参照的,所以一旦之后有大于第一行的column数量时就会报错,这样的CSV处理不了。为了暂时解决这个问题,我们计划的方案是先遍历每一行,得到一个最大行数作为参照,如果小于这个值就用column+number来补齐。听起来简单的方案在开发起来却遇到了问题。之前所有相关方法传入的值都是BufferReader类型的数据,因为按照原来的逻辑把文件从头读到尾就可以了,但是现在可能需要读两遍。我尝试过复制参数,但是仍然是‘一次性的’读取文件。
于是我去查看了BufferReader的API,发现了一个可能能解决我问题的方案,就是使用mark(int readAheadLimit)和reset。字面意思可以理解,一个是标记要回滚的位置,一个是回滚。乍看之下好像没什么问题,但是要注意到mark方法有一个readAheadLimit的参数。这个参数是当mark之后读取多少数据mark会失效。经过测试,确实当我读取的信息大于readAheadLimit值时会抛一个IO的Exception:Resetting to invalid mark。也就是说无法进行回滚。一般来说,这个参数都是文件的大小,这样才能保证回滚,但是如果我都能把文件传进来了,就不需要用这种方式了,创建两个BufferReader就可以了。其实还可以存入一个int的最大值,但是这样需要开辟一个这么大的内存空间,不是很好的解决方案。所以最终我还是将传递的BufferReader改为直接传入源文件解决这个问题。但是学习了这对儿方法可能会应用在之后的开发中。
Java参数传递
这一部分是很基础的知识点了,但是之前在开发的时候又因为不注意出错,所以mark一下。首先传递的参数我们分为两种,一种是基础类型参数,比如int,double。这种值传进方法内都是一个copy,也就是说修改了这个值在方法结束之后并不会对传入参数有任何影响,生命周期结束在方法内。第二种是引用参数,这种传入参数在方法内处理的实际上是一个新指向原引用地址的新的引用,什么意思呢,就是当你直接修改这个引用的值的时候,因为指向的内存地址相同,所以就是修改了传入参数,且这个修改最终在方法结束之后会产生影响。但是要注意的是当你又把新的值赋给了这个引用的时候,并不等于你修改了传入的引用值,而是新的引用值,所以生命周期和方法相同。所以特别注意传入参数赋值的时候要小心。特别说明的是String类型的参数,他虽然是引用类型,但是他是不可变参数(由于String的实现所致),所以调用它的方法对String进行修改也不会改变原因用的值,生命周期与方法相同。综上,当你传入值引用或String引用的时候,如果要保存参数改变,要讲修改的结果保存或return。当传入引用参数的时候,不必返回,但是要注意赋值操作。
Gateway和Service activator
首先回顾一下Adapter和Gateway的区别,Adapter是单向的Endpoint,而gateway是双向的。Gateway很多时候与Adapter共同使用,比如对文件的筛选等,也可以调用Webservice,返回feedback。Service Activator更像是一个自定义组件,首先他也是双向的,我认为他的目的就是增加自定义的方法,比如通过第三方的依赖对文件进行上传。综上,gateway通常是有特定功能的,虽然也可以定制化,但是Service Activator更加灵活。参考文章:http://forum.spring.io/forum/spring-projects/integration/79034-service-activator-vs-outbound-gateway
最后Mark一个处理XML常用的正则。很多时候我们要匹配到的是xml两端的标签,对这个标签进行替换,比如将 <header:MSG_SENT_DATETIME>2018-11-11T11:11:11</header:MSG_SENT_DATETIME>
替换成空标签(这种操作可以用于测试,比较源文件和目标文件完全相同,屏蔽时间的影响),于是我们就可以把中间的部分用[\\s\\S]*(全部匹配)代替。比如str. replaceAll("<header:time_stamp>[\\s\\S]*</header:time_stamp>","<header:time_stamp/>")(replaceAll()方法第一部分是正则表达式)。
还有一点要注意的是,当存在两个一样的标签的时候这样替换可能会存在问题,这个时候可以在匹配下一行进行区分,之后再对xml进行format。比如:
expectPayload = expectPayload.replaceAll("<header:MSG_SENT_DATETIME>[\\s\\S]*</header:MSG_SENT_DATETIME>[\\s\\S]*<header:MSG_STATUS","<header:MSG_SENT_DATETIME/><header:MSG_STATUS")