面试官:来说一下,你们是怎么解决分布式场景下的事务问题?

在单库的情况下,我们可以通过不同的隔离级别,来解决脏读、不可重复读、幻读问题。但是,随着服务细化和微服务的发展,在日常工作中,不免就会涉及到分布式事务的问题。那么,本篇文章就来聊一聊分布式事务的解决方案有哪些。

针对于分布式事务的解决方案,广义上我们可以将其分为两类,即:刚性事务柔性事务

刚性事务:顾名思义,非常的“刚”,属于硬刚的那种。这个分布式事务要么全成功,要么全回滚,别跟我提什么中间状态,我的人生中不允许出现模棱两可。其中包括:XA2PC3PC

图片

柔性事务:相比刚性事务,柔性事务允许出现中间状态,很“温柔”,像宝钗一般温柔。它别的不管,只关注最终状态,即:最终一致性一定要保证的。其中包括:可靠事务队列TCCSAGA基于数据补偿

图片

在下面篇幅中,我们就来详细聊一聊。

XA

为了解决分布式事务一致性问题,X/Open组织提出了一套名为X/Open XA(XA的缩写为:eXtended Architecture)的处理事务架构,其核心内容是定义了全局的事务管理器(Transaction Manager,用于协调全局事务)和局部的资源管理器(Resource Manager,用于驱动本地事务)之间的通信接口。XA接口是双向的,能在一个事务管理器和多个资源管理器之间形成通信桥梁,通过协调多个数据源的一致动作,实现全局事务的统一提交或统一回滚。

XA并不是Java的技术规范(XA提出的时候Java还没有诞生),而是一套跟语言无关的通用规范,所以Java中专门定义了JSR 907 Java Transaction API,基于XA模式在Java语言中实现了全局事务处理的标准,这也就是我们现在熟知的JTA(Java Transaction API)。

JTA最主要的两个接口如下所示:

事务管理器接口(javax.transaction.TransactionManager) 这套接口用于为Java EE服务器提供容器事务(由容器自动负责事务管理)。JTA还提供了另外一套javax.transaction.UserTransaction接口,用于通过程序代码手动开启、提交和回滚事务。

满足XA规范的资源定义接口(javax.transaction.xa.XAResource) 任何资源(JDBC、JMS等)如果想要支持JTA,只要实现XAResource接口中的方法即可。

2PC

概述

为了保证整个事务的一致性,XA将事务提交拆分成两阶段,即:二段式提交(2 Phase Commit,2PC)协议。交互时序示意图如下所示:

图片

第一阶段:准备阶段(投票阶段)

协调者询问事务的所有参与者是否准备好提交了,准备好恢复Prepared,否则恢复Non-Prepared。

准备操作是在redoLog中记录全部事务提交操作所要做的内容,它与本地事务中真正提交的区别只是暂时不写入最后一条Commit Record而已,这意味着在做完数据持久化后并不释放持有的锁。

第二阶段:提交阶段(执行阶段)

如果协调者收到所有事务参与者都回复了Prepared消息,则先自己在本地持久化事务状态为Commit,然后向所有参与者发送Commit指令,让所有参与者立即执行提交操作。

否则,任意一个参与者回复了Non-Prepared消息,或者任意一个参与者超时未回复时,协调者将在自己完成事务状态为Abort持久化后,向所有参与者发送Abort指令,让参与者立即执行回滚操作。

对数据库来说,提交阶段操作是很轻量级的,仅仅是持久化一条Commit Record而已,通常能够快速完成。

只有收到Abort指令时,才需要根据回滚日志清理已提交的数据,这个操作相对负载会重一些。

2PC的缺点

单点问题

如果协调者发生了宕机,所有的参与者都会受到影响。如果协调者一直没有恢复,没有正常发送Commit或Rollback的指令,那么所有的参与者都必须一直等待

性能问题

由于所有参与者相当于被绑定为一个统一调度的整体,在此期间要经过2次远程服务调用,3次数据持久化(1> 准备阶段写redoLog;2> 协调者做状态持久化;3> 提交阶段在日志写入提交记录),整个过程将持续到参与者集群中最慢的那一个处理操作结束为止,这导致了2PC的性能通常比较差。

一致性风险

尽管提交阶段时间很短,但是这仍是一段明确存在的危险期,如果协调者在发出准备指令后,根据收到各个参与者发回的信息确定事务状态时可以提交的,协调者会先持久化事务状态,并提交自己的事务,如果这个时候网络忽然断开,无法再通过网络向所有参与者发出Commit指令的话,就会导致部分数据(协调者的)已提交,但部分数据(参与者)未提交,且没有办法回滚,产生数据不一致的问题

3PC

为了缓解2PC中协调者的单点问题和准备阶段的性能问题,后续发展出了“三段式提交”,即:3PC协议。交互时序示意图如下所示:

图片

3PC把原本2PC中的准备阶段再细分为两个阶段,即:CanCommit阶段和PreCommit阶段。把提交阶段改称为DoCommit阶段。如下图所示:

图片

CanCommit阶段是一个询问阶段,即:协调者让每个参与的数据库根据自身状态,评估该事务是否有可能顺利完成。

将2PC的准备阶段分为CanCommit阶段和PreCommit阶段,主要是因为2PC的准备阶段是一个重负载的操作,因为一旦协调者发出开始准备的消息,每个参与者都将马上开始写redoLog,它们所涉及的数据资源即被锁住,如果此时某一个参与者宣告无法完成提交,那么所有的参与者都做了一轮无用功了。所以,增加一轮询问阶段——即:CanCommit阶段,如果都得到了正面的响应,那么事务能够成功提交的把握就比较大了,也就减少了所有参与者全部回滚的风险了。

综上所述,在事务需要回滚的场景中,3PC的性能要比2PC好很多。但是,在事务能够正常提交的场景中,2PC和3PC的性能都很差,甚至由于3PC多了一次询问,性能还要更差一些。

可靠事务队列

以快捷支付为例,当用户下单的时候,自动就进行了支付扣款操作。那么创建订单、扣减库存和支付扣款这三个操作就应该是一个原子性的操作。那么如果我们采取可靠事件队列的方式,则流程如下所示:

图片

首先,执行创建订单操作,如果执行成功,就向消息事件表中插入事务数据,如下图所示:

图片

【注意】创建订单和写入消息事件表,使用同一个本地事务写入订单服务的数据库。

其次,消息服务定时轮询消息事务表,将状态为“进行中”的消息发送到MQ中,并且有对应的库存服务和支付服务进行消费调用操作。如果执行成功,则将响应的状态修改为“已完成”。当某个事务ID下所有的行为状态都是“已完成”状态时,则表示整个事务总体成功的,即:达到最终一致性的状态。

如果扣减库存或者账户扣款失败了,那么状态依然是“进行中”。当消息服务定时轮询再次抓取到状态为“进行中”的消息时,会再次重试扣减库存或扣款操作。所以,这些接口必须具备幂等性,否则就会出现重复操作的问题。

可靠事件队列的特点就是:如果某个服务无法完成工作,那么就会一直重试,直到操作成功或是人工介入。由此可见,可靠事务队列只要第一步业务完成了,后续就没有失败回滚的概念,只许成功,不许失败。

TCC

TCC是“Try-Confirm-Cancel”的缩写,是常见的分布式事务机制。

在具体实现上,TCC较为繁琐,它是一种业务侵入式较强的事务方案,要求业务处理过程必须拆分为“预留业务资源”和“确认/释放消费资源”两个子过程。如同TCC的名字所示,它分为以下三个阶段:

Try(尝试执行阶段)
完成所有业务可执行性的检查(保障一致性),并且预留好全部需要用到的业务资源(保障隔离性)。

Confirm(确认执行阶段)
不进行任何业务检查,直接使用Try阶段准备的资源来完成业务处理。Confirm阶段可能会重复执行,因此本阶段执行的操作需要具备幂等性。

Cancel(取消执行阶段)
释放Try阶段预留的业务资源。Cancel阶段可能会重复执行,因此本阶段执行的操作需要具备幂等性。

上述我们了解了TCC模式,那么下面还是以快捷支付为例,看一下TCC的执行过程:

图片

由上述操作过程可见,TCC其实有点类似2PC的准备阶段和提交阶段。但TCC是在用户代码层面,而不是在基础设施层面,这为它的实现带来了较高的灵活性,可以根据需要设计资源锁定的粒度。

TCC在业务执行时只操作预留资源,几乎不会涉及锁和资源的争用,具有很高的性能潜力。但TCC也带来了更高的开发成本和业务侵人性,即更高的开发成本和更换事务实现方案的替换成本,所以,通常我们并不会完全靠裸编码来实现TCC,而是基于某些分布式事务中间件(管如阿里开源的Seata)去完成,尽量减轻一些编码工作量。

SAGA

在一些场景下,如果无法实现冻结、解冻、扣减这样的操作的话,那么TCC中的第一步Try阶段就无法施行了。此时,我们可以考虑使用另外一种柔性事务——SAGA事务。

SAGA事务大致思路是:把一个大事务分解为可以交错运行的一系列子事务集合。原本SAGA的目的是避免大事务长时间锁定数据库资源,后来才发展成将一个分布式环境中的大事务分解为一系列本地事务的设计模式。

图片

SAGA由两部分操作组成:

• 第一部分:将大事务拆分成若干个小事务,将整个分布式事务T分解为n个子事务,命名为T1,T2,T3 ... ,Tn。每个子事务都应该是或者能被视为原子行为。如果分布式事务能够正常提交,其对数据的影响(即:最终一致性)应与连续按顺序成功提交Ti等价。

• 第二部分:为每一个子事务设计对应的补偿动作,命名为C1,C2,C3...,Cn。Ti与Ci必须满足以下条件:
1> Ti与Ci都具备幂等性。
2> Ti与Ci满足交换律,即:无论先执行Ti还是先执行Ci,其效果都是一样的。
3> Ci必须能成功提交,即:不考虑Ci本身提交失败被回滚的情形,如果出现就必须持续重试直至成功,或者被人工介入为止。

如果T1到Tn均成功提交,那事务顺利完成。否则,要采取以下两种恢复策略之一:

• 恢复策略一:正向恢复(Forward Recovery)
如果Ti事务提交失败,则一直对Ti进行重试,直到成功为止(最大努力交付)。这种恢复方式不需要补偿,适用于事务最终都要成功的场景。正向恢复的执行模式为:T1,T2,...,Ti(失败),Ti(重试),...,Ti+1,...,Tn。

• 恢复策略二:反向恢复(Backward Recovery)
如果Ti事务提交失败,则一直执行Ci对Ti进行补偿,直至成功为止(最大努力交付)。这里要求Ci必须(在持续重试后)执行成功。反向恢复的执行模式为:T1,T2,...,Ti(失败),Ci(补偿),...,C2,C1。

与TCC相比,SAGA不需要为资源设计冻结状态和撤销冻结的操作,补偿操作往往要比冻结操作容易实现得多

SAGA必须保证所有子事务都得以提交或者补偿,但SAGA系统本身也有可能会崩溃,所以它必须设计成与数据库类似的日志机制(被称为SAGA Log)以保证系统恢复后可以追踪到子事务的执行情况,比如执行到哪一步或者补偿到哪一步了。

SAGA事务通常也不会直接靠裸编码来实现,一般是在事务中间件的基础上完成,例如利用Seata的SAGA事务模式。

基于数据补偿

seata的AT模式就是基于数据补偿来代替回滚思路的。

AT事务是参照了XA两段提交协议实现的,但是AT并不需要等待所有数据源都返回成功采取执行全局提交,而是通过了拦截SQL的方式,生成前后镜像,生成行锁,通过本地事务一起提交到操作的数据源中,相当于自己记录了重做和回滚日志。

如果分布式事务成功提交,那后续清理每个数据源中对应的日志数据即可;

如果分布式事务需要回滚,就根据日志数据自动产生用于补偿的“逆向SQL”。

图片

采用AT模式,效率要比2PC这种阻塞式高很多。但是却丧失了隔离性。譬如:在本地事务提交之后,分布式事务完成之前,该数据被补偿之前又被其他操作修改过,即:出现了脏写,那么此时一个分布式事务需要回滚,就不可能再通过自动的逆向SQL来实现补偿,只能由人工接入来处理了。但是其实也很难通过人工进行有效处理。所以Seata增加了全局锁的机制来实现写隔离,要求本地事务提交之前,一定要先拿到针对修改记录的全局锁后才允许提交,如果没有获得全局锁就必须一直等待。

这种设计以牺牲一定性能作为代价,避免了两个分布式事务中包含的本地事务修改同一个数据的情况,从而避免脏写。但是这种全局锁的方式性能消耗太大,一般不会这样做,需要根据实际业务场景进行取舍。

总结

以上的内容,基本完整地介绍了分布式事务的解决方案。其实没有哪一种解决方案是最好的,同理,也没有哪个解决方案是最差的,有的只是最适合大家的。同学们可以根据具体业务和现状进行选择。

最近看了一本书,叫《认知觉醒》,周岭写的。书里的内容写得很好,其中有一章,介绍他每天早起的经历。里面有个理论蛮有意思的,跟大家分享一下,书中的大意是这样的:“人在睡眠的前3个小时属于深度睡眠,此后每1.5个小时会在深度睡眠和浅度睡眠两种模式不断切换。”换句话说,人的睡眠是有规律的,在睡眠后的3小时、4.5小时、6小时、7.5小时这几个节点如果醒来,就会觉得神清气爽,精力充沛。而我们平时采用闹钟的方式定点起床,很大概率被吵醒的时间点我们还在深度睡眠或者浅度睡眠的过程中,所以醒来的时候一般都会很困很难受。

并且他根据以上的理论,已经在4年里每天早上4点左右起床,重要的是,不再需要闹钟的提醒。那么他就将他的一天分成了如下3个阶段:

• 第一阶段:早上4点——中午12点

• 第二阶段:中午12点——晚上8点

• 第三阶段:晚上8点——次日早上4点

在上面的3个阶段中,他既保证了睡眠质量,又比大多数人更多地“拥有了白天的时间”。

看完之后,我个人也开始去尝试和关注这个睡眠规律。每天晚上10点左右睡觉,很神奇的是,我发现自己也可以不用闹钟的情况下,早上5点左右自然醒来(当然,如果要睡回笼觉的话,我觉得我也能很快睡着),而且精神状态很好。醒来后做了很多工作一看时间,还是上午,这种感觉其实还是挺不错的。如果大家感兴趣的话,可以尝试一下哈。

行了,今天就这么多内容了,我们下篇文章再见啦!

本文由博客一文多发平台 OpenWrite 发布!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,001评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,210评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,874评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,001评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,022评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,005评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,929评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,742评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,193评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,427评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,583评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,305评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,911评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,564评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,731评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,581评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,478评论 2 352

推荐阅读更多精彩内容