对于本地事务处理或者是集中式的事务处理系统,可以采用成熟的ACID模型来保证数据的严格一致性。但是随着分布式事务的出现,传统的单机事务模型已经无法胜任。尤其是对于一个高访问量,高并发的互联网分布式系统来说,可用性是一个必须的系统属性,而严格满足ACID模型的分布式模型,很可能需要牺牲掉系统的可用性。于是如何构建一个兼顾可用性和一致性的分布式系统成为了无数工程师探讨的难题,出现了诸如CAP和BASE这样的分布式系统经典理论。
CAP
CAP理论:一个分布式系统不可能同时满足一致性(C:Consistency)、可用性(A:Availability)和分区容错性(P:Partition tolerance)这三个基本需求,最多只能同时满足其中的两项。
一致性
当一个系统在数据一致的状态下执行分布式事务后,应该保证系统的数据依然处于一致的状态。
在一个分布式事务过程中,对节点一的数据进行操作,并操作成功。对节点二的数据进行操作,操作失败。此时,对节点二进行数据读取,读取到的数据依然是老数据(即脏数据),这就是典型的分布式数据不一致的情况。
可用性
系统提供的服务必须一直处于可用的状态,对于用户的每一个操作请求决能够在有限的时间内返回结果。
有限时间:对于用户的一个请求,系统必须能够在指定的时间内返回对应的处理结果,如果超过了这个时间范围,那么系统就被认为是不可用的。不同的系统对于响应时间的设定不一样。
返回结果:系统处理完请求后,应该返回一个正常的响应结果。成功或失败,而不是一个让用户感到困惑的结果。比如返回OutOfMemory提示语,那么将被认为系统是不可用的。
分区容错性
分布式系统在遇到任何网络分区故障时,仍然能够保证对外提供满足一致性和可用性的服务,除非是整个网络环境都发生了故障。
网络分区是指在分布式系统中,不同的节点分布在不同的子网络(机房或异地网络等)中,由于一些特殊的原因导致这些子网络之间出现网络不连通的状况,但各个子网络的内部网络是正常的,从而导致整个系统的网络环境被切分成了若干个孤立的区域。
CAP应用
放弃CAP | 说明 |
---|---|
放弃P | 放弃P意味着放弃了系统的可扩展性 |
放弃A | 一旦系统遇到网络分区或其他故障时,受到影响的服务需要等待一定的时间,在等待期间系统无法对外提供正常的服务,即不可用 |
放弃C | 这里的放弃,并不是完全放弃,如果完全放弃一致性,那么系统的数据都是没有意义的,整个系统也将变得没有价值。放弃一致性指的是放弃强一致性,而保留数据的最终一致性。系统无法保证数据实时的一致性,但是能够承诺的是,数据最终会达到一个一致的状态。这就引入一个时间窗口的概念,具体多久能够达到数据一致取决于系统的设计。 |
对于分布式系统来说,分区容错性是必要属性,因为既然是一个分布式系统,那么系统中的组件必然需要被部署到不同的节点,否则也就无所谓分布式系统了。而对于分布式系统而言,网络问题又是一个必定会出现的异常情况,因此分区容错性也就成了分布式系统必须要面对和解决的问题。CAP应用主要是根据业务特点在C和A之间寻求平衡
BASE
BASE:Basically Available(基本可用)、Soft state(软状态)和Eventually consistent(最终一致性)
基本可用
分布式系统在出现不可预知故障的时候,允许损失部分可用性。
- 响应时间上的损失:正常情况下,一个操作只需要0.5秒,故障情况下,响应时间增加至1~2秒
- 功能上的损失:故障情况下,部分操作用户可能会被引导至一个降级页面。
弱状态
允许系统中的数据存在中间状态,并认为该中间状态的存在不会影响系统的整体可用性,即允许系统在不同节点的数据副本之间进行数据同步的过程存在延时。
最终一致性
系统中所有的数据副本,在经过一段时间的同步后,最终能够达到一个一致的状态。最终一致性的本质是需要系统保证最终数据能够达到一致,而不需要实时保证系统数据的强一致性。
总的来说,BASE理论面向的是大型高可用可扩展的分布式系统,和传统事务的ACID特性是相反的,它完全不同于ACID的强一致性模型,而是牺牲强一致性来获得可用性,并允许数据在一段时间内是不一致的,但最终达到一致状态。