14.TCC-TCC解决方案

TCC解决方案

  • 目前市面上的TCC框架众多比如下面这几种:
    (一下数据采集日为2019年7月11日)
框架名称 Github地址 star数量
tcc-transaction https://github.com/changmingxie/tcc-transaction 3850
Hmily https://github.com/yu199195/hmily 2407
ByteTCC https://github.com/liuyangming/ByteTCC 1947
EasyTransaction https://github.com/QNJR-GROUP/EasyTransaction 1690
  • Seata也支持TCC,但Seata的TCC模式对Spring Cloud并没有提供支持。我们的目标是理解TCC原理以及事务协调运作的过程,因此更倾向于轻量级易于理解的框架,因此最终确定了Hmily。

  • Hmily是一个高性能分布式事务TCC开源框架。基于Java语言来开发(JDK1.8),支持Bubbo,Spring Cloud等RPC框架进行分布式事务。它目前支持一下特性:

    • 支持嵌套事务(Nested transaction support)。
    • 采用disruptor框架进行事务日志的异步读写,与RPC框架的性能毫无差别。
    • 支持SpringBoot-starter项目启动,使用简单。
    • RPC框架支持:dubbo,motan,springcloud
    • 本地事务存储支持:redis,mongodb,zookeeper,file,mysql。
    • 事务日志序列化支持:Java,hessian,kryo,protostuff。
    • 采用Aspect AOP切面思想与Spring无缝集成,天然支持集群。
    • RPC事务恢复,超时异常恢复等。
  • Hmily利用AOP对参与分布式事务的本地方法远程方法进行拦截处理,通过多方拦截,事务参与者能透明的调用到另一方的Try,Confirm,Cancel方法;传递事务上下文;并记录事务日志,酌情进行补偿,重试等。

  • Hmily不需要事务协调服务,但需要提供一个数据库(MySQL,mongodb,zookeeper,redis,file)来进行日志存储。

  • Hmily实现的TCC服务与普通的服务一样,只需要暴露一个接口,也就是它的Try业务。Confirm/Cancel业务逻辑,只是因为全局事务提交。回滚的需求才提供的,因此Confirm/Cancel业务只需要Hmily TCC事务框架发现即可,不需要被动调用它的其他业务服务所感知。

  • 官网介绍: https://dromara.org/website/zh-cn/docs/hmily/index.html

TCC需要注意三种异常处理分别是空回滚,幂等,悬挂:
空回滚
  • 在没有调用TCC资源Try方法的情况下,调用了二阶段的Cancel方法,Cancel方法需要识别出这是一个空回滚,然后直接返回成功。
  • 出现原因是当一个分支事务所在服务宕机或网络异常,分支事务调用记录为失败,这个时候其实是没有执行Try阶段,当故障恢复后,分布式事务进行回滚则会调用二阶段的Cancel方法,从而形成空回滚。
  • 解决思路是关键字就是要识别出这个空回滚。思路很简单就是需要知道一阶段是否执行,如果执行了,那么就是正常回滚;如果没执行,那么就是空回滚。前面已经说过TM在发起全局事务时生成全局事务记录,全局事务ID贯穿整个分布式事务调用链条。再额外增加一张分支事务记录表,其中有全局事务ID和分支事务ID,第一阶段Try方法里会插入一条记录,表示一阶段执行了。Cancel接口里读取该记录,如果该记录存在,则正常回滚;如果记录不存在,则是空回滚。
幂等:
  • 通过前面介绍已经了解到,为了保证TCC阶段提交重试机制不会引发数据不一致,要求TCC的二阶段Try,Confirm和Cancel接口保证幂等性等,这样不会重复使用或者释放资源。如果幂等性控制没有做好,很有可能导致数据不一致等严重问题。
  • 解决思路在上述“分支事务记录”中增加执行状态,每次执行前都查询该状态。
悬挂:
  • 悬挂就是对于一个分布式事务,其二阶段Cancel接口比Try接口先执行
  • 出现原因是在RPC调用分支事务try时,先注册分支事务,再执行RPC调用,如果此时RPC调用的网络发生拥堵,通常RPC调用是有超时时间的,RPC超时以后,TM就会通知RM回滚该分支事务,可能回滚完成后,RPC请求才到达参与者真正执行,而一个Try方法预留的业务资源,只有该分支事务才能使用,该分支事务第一阶段预留的业务资源就再也没有人能够处理了,对于这种情况,我们就称为悬挂,即业务资源预留后没法继续处理。
  • 解决思路是如果二阶段执行完成,那一阶段就不能继续执行。在执行一阶段事务判断在该全局事务下,“分支事务记录”表中是否已经有二阶段事务记录,如果有则不执行Try。
例举,场景A转账30元给B,A和B账户在不同的服务。
方案1:
  • 账户A
try:
    检查金额是否够30元
    扣减30元
confirm:
    空
cancel:
    增加30元
  • 账户B
try:
    增加30元
confirm:
    空
cancel:
    减少30元
方案1说明:
  • (1)账户A,这里的金额就是所谓的业务资源,按照前面提到的原则,在第一阶段需要检查并预留资源,因此,我们在扣钱TCC资源的Try接口里先检查A账户金额是否足够,如果足够则扣除金额30元。Confirm接口表示正式提交,由于业务资源已经在Try接口里面扣除掉了,那么在第二阶段的Confirm接口里可以什么都不用做。Cancel接口的执行表示整个事务回滚,账户A回滚则需要把Try接口里扣除掉的30元还给账户。

  • (2)账号B,在第一阶段Try接口里实现账户给B价钱,Cancel接口的执行表示整个事务回滚,账户B回滚则需要把Try接口里加的30元再减去。

方案1的问题分析:
  • (1)如果账户A的Try没有执行在Cancel则就多加了30元。
  • (2)由于try,cancel,confirm都是由单独的线程去调用,且会出现重复调用,所以都需要实现幂等。
  • (3)账号B在try中增加30元,当try执行完成后可能会其它线程消费了。
  • (4)如果账户B的try没有执行在cancel则就多减了30元。
问题解决:

(1)账户A的cancel方法需要判断try方法是否执行,正常执行try后可执行cancel。
(2)try,cancel,confirm方法实现幂等。
(3)账号B在try方法中不允许更新账户金额,在confirm中更新账户金额。

优化方案:
  • 账户A
try:
    try幂等校验
    try悬挂处理
    检查金额是否够30元
    扣减30元
confirm:
    空
cancel:
    cancel幂等校验
    cancel空回滚处理
    增加可用金额30元
账户B
try:
    空
confirm:
    confirm幂等校验
    正式增加金额
cancel;
    空
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。