一、CAP理论

在理论计算机科学中，CAP定理，也就是以计算机科学家Eric Brewer的名字命名的Brewer定理，指出分布式数据存储不可能同时提供以下三种保证中的两种以上：

一致性(Consistency)：每次读取都会收到最新的写入或错误。
可用性(Availability)：每个请求都接收一个(无错误)响应——而不保证它包含最近的写入。
分区容忍性(Partition tolerance)：尽管网络在节点之间丢弃(或延迟)任意数量的消息，系统仍继续运行。

尤其是，CAP定理暗示，在存在网络分区的情况下，必须在一致性和可用性之间进行选择。注意，CAP定理中定义的一致性与ACID数据库事务中保证的一致性有很大不同。

一致性(Consistency)

一致性就是数据保持一致，在分布式系统中，可以理解为多个节点中数据的值是一致的。因此您可以从任何节点读取或写入数据并获取相同的数据。

一致性又可以分为强一致性与弱一致性。

强一致性
强一致性可以理解为在任意时刻，所有节点中的数据是一样的。同一时间点，你在节点A中获取的key1的值与在节点B中获取到key1的值应该都是一样的。
弱一致性
弱一致性包含很多种不同的实现，目前分布式系统中广泛实现的是最终一致性。
最终一致性
所谓最终一致性，是弱一致性的一种特例，保证用户最终能够读取到某操作堆系统特定数据的更新。随着时间的迁移，不同节点上的同一份数据总是在向趋同的方向变化。也可以简单的理解为在一段时间后，节点简单的数据会最终达到一致性状态。对于最终一致性最好的例子就是DNS系统，由于DNS多级缓存的实现，所以修改DNS记录后不会在全球所有DNS服务节点生效，需要等待DNS服务器缓存过期后向源服务器获取新的记录才能实现。

可用性(Availability)

可用性意味着即使集群中的一个节点出现故障，也能够访问该集群。

通常我们通过下面这样的一个公式来直观得描述当前系统的可用性：

Availability .png

uptime ：线上运行时间
downtime：停机时间

考察时间为指定瞬间，则称瞬时可用性；考察时间为指定时段，则称时段可用性；考察时间为连续使用期间的任一时刻，则称固有可用性。它是衡量设备在投入使用后实际使用的效能，是设备或系统的可靠性、可维护性和维护支持性的综合特性。

可用性的反面是故障时间，网站或者分布式系统会因为很多原因导致不可用，比如：程序bug、运维更新错误、环境配置升级变化，机器硬件故障、被恶意攻击、不小心踢掉了网线/电源插座、市政施工挖断了光纤、程序员删库跑路、地震海啸自然灾害等待。

如果按照年为单位计算系统的故障时间，公式如下：

故障时间秒数=(1-可用性) * 365 * 24 * 3600

可见，如果只有1个9的可用性，体验是极其糟糕的，1年下来有1个多月不能使用。一些大型网站号称能过做到4个9，那么1年有52分钟故障时间，其实已经是不错的情况了。如果要宣传自己拥有10个9的可用性，那么意味着100年以内只会故障3秒钟；所以各大厂商的无脑吹嘘也要适可而止。

分区容忍性(Partition tolerance)

分布式系统由多个节点(组)组成，对外来看是一个整体，节点(组)与节点(组)之前通过某种通信方式进行互相交流，也就是说集群内的节点(组)组成了一个节点网。但是节点(组)与节点(组)节点是通过网络进行通信的，由于网络的故障会导致节点(组)与节点(组)的通信中断，这时候概观整个网，就不再是整体，而是一个一个的分区组成。分区容忍性描述的就是可以容忍这样的情况发生，并且正常提供服务。

概括地说就是：分区容错意味着集群继续工作，即使两个节点(组)之间存在“分区”(通信中断)(两个节点(组)都已启动，但无法通信)。

网络分区

网络分区是指将网络分解为相对独立的子网，比如进行分离的优化或者由于网络设备的失效而导致的网络分裂。在这两种情况下，子网的分区容忍行为是预期的。这意味着即使在将网络划分成多个子系统之后，它仍然能够正常工作。

例如，在具有多个子网的网络中，节点A和B位于一个子网中，节点C和D位于另一个子网中，如果两个子网之间的网络交换设备失败，则发生分区。在这种情况下，节点A和B不能再与节点C和D通信，但所有节点A-D的工作方式与以前一样。

二、CAP图示

上面已经对CAP中包含的三个基本特性作为理论性的说明，这一小节以图示的方式来分别描述一下这些特性具体讲的是什么。

原文地址：https://mwhittaker.github.io/blog/an_illustrated_proof_of_the_cap_theorem/

让我们考虑一个非常简单的分布式系统。我们的系统由两台服务器组成，G1和G2。这两台服务器都在跟踪相同的变量v，其值最初为v0。G1和G2可以相互通信，也可以与外部客户进行通信。我们的系统是这样的。

cap-1.png

客户端可以请求从任何服务器进行读写。当服务器接收到请求时，它会执行它想要的任何计算，然后对客户端进行响应。例如，下面是写的情况：

cap-2.png

下面是读的情况：

cap-3.png

现在我们已经建立了我们的系统，让我们来研究一下系统是一致的、可用的和允许分区的意味着什么。

一致性

在一致的系统中，一旦客户端向任何服务器写入值并获得响应，它就希望从读取的任何服务器获得该值(或更新的值)。

这里是一个不一致系统的例子。

cap-4.png

我们的客户端将v1写入G1，G1完成了，但是当它从G2读取时，会得到陈旧的数据：v0。

另一方面，这里是一个一致的系统的例子。

cap-5.png

在此系统中，G1在向客户端发送确认之前将其值复制到G2。因此，当客户机从G2读取时，它获得了v的最新值：v1。

可用性

在可用的系统中，如果我们的客户端向服务器发送请求，而服务器没有崩溃，那么服务器最终必须响应客户端。不允许服务器忽略客户端的请求。

分区容忍性

这意味着G1和G2之间的发送任何消息都可以被删除。如果所有的消息都被丢弃了，那么我们的系统就会像这样。

cap-6.png

为了能够容忍分区，我们的系统必须能够在任意网络分区的情况下正确工作。

三、CAP权衡

在文章的开始就说了三个特性不能完全满足，只能满足其中二个。现在就来论证一下不能同时满足。

假设确实存在一致、可用和分区容忍度的系统。我们做的第一件事就是将我们的系统分区。看起来像这样。

cap-7.png

下一步，我们发起对G1的请求将v1写入。由于我们的系统是可用的，所以G1必能响应。又由于我们的系统是分区的，那么G1就不能讲它的数据复制给G2。Gilbert和Lynch称这为α1执行阶段。

cap-8.png

下一步，我们对G2发送请求。同样的，因为我们系统是可用的，所以G2必能响应。G2不能从G1中获取更新的数据，它返回数据v0。Gilbert和Lynch称这为α2执行阶段。

cas-9.png

客户端已经将v1写入到G1了，不过请求G2却访问v0。这就是不一致的。

上面我们假设存在满足三个特性系统，但是通过描述发现该系统并没有同时满足这三个特性，所以我们的假设是不成立的，不可能有同时满足这三种特性的系统存在。

在我们设计系统的时候如何进行取舍呢？下面的这篇文章讲得比较详细，跳转阅读：

分布式系统的CAP理论

分布式系统 - CAP定律