1.CAP理论
CAP原则包含以下三个元素:
- C(Consistency): 一致性。在分布式系统中的所有数据备份,在同一时刻具有同样的值,所有节点在同一时刻读取的数据都是最新的数据副本。
- A(Availability):可用性,好的响应性能。完全的可用性指的是在任何故障模型下,服务都会在有限的时间内处理完成井进行响应。
- P(Partition tolerance):分区容忍性。尽管网络上有部分消息丢失,但系统仍然可继续工作。
CAP 原理证明,任何分布式系统只可同时满足以上两点,无法三者兼顾。由于分布式的服务化系统都需要满足分区容忍性,那么我们必须在一致性和可用性之间进行权衡。如果在网络上有消息丢失,也就是出现了网络分区,则复制操作可能会被延后,如果这时我们的使用方等待复制完成再返回,则可能导致在有限时间内无法返回,就失去了可用性;而如果使用方不等待复制完成, 而在主分片写完后直接返回,则具有了可用性,但是失去了一致性。
2.一致性问题 consistency problem
2.1定义
在分布式系统中,一致性问题是指对于一组服务器,给定一组操作,我们需要一个协议使得最后它们的结果达成一致。
2.2分类
- 严格一致性 strict consistency
对于数据项x的任何读操作将返回最近一次对x进行的写操作的结果所对应的值。
理想情况。依赖于绝对的全局时间。在系统不发生任何故障,而且所有节点之间的通信无需任何时间的理想条件下,才能达到。 - 强一致性 strong consistency
当分布式系统中更新操作完成之后,任何多个进程或线程,访问系统都会获得最新的值。
分为:- 顺序一致性:任何执行结果都是相同的,就好像所有进程对数据存储的读、写操作是按某种序列顺序执行的,并且每个进程的操作按照程序所指定的顺序出现在这个序列中 。
(1)每个线程内部的指令都是按照程序规定的顺序(program order)执行的(单个线程的视角)
(2)线程执行的交错顺序可以是任意的,但是所有线程所看见的整个程序的总体执行顺序都是一样的(整个程序的视角) - 线性一致性:假设操作具有一个全局有效时钟的时间戳,但是这个时钟仅具有有限的精确度。要求时间戳在前的进程先执行。线性化是根据一系列同步时钟确定序列顺序的 。
- 顺序一致性:任何执行结果都是相同的,就好像所有进程对数据存储的读、写操作是按某种序列顺序执行的,并且每个进程的操作按照程序所指定的顺序出现在这个序列中 。
- 弱一致性 weak consistency
系统并不保证后续进程或线程的访问都会返回最新的更新的值。 - 最终一致性 eventual consistency
弱一致性的特定形式。系统保证在没有后续更新的前提下,系统最终返回上一次更新操作的值。
3.共识性问题 consensus problem
3.1定义
分布式系统中多个节点达成一致性结果的过程。
共识算法解决的就是这个过程。通常情况下,每个机器是相同的确定性状态机,只要初始状态和指令顺序相同,就可以保证同样的结果状态。因此最关键的就是多个事件的排序达成共识。
3.2算法
根据解决的是非拜占庭的普通错误情况还是拜占庭错误情况,共识算法可以分为Crash Fault Tolerance(CFT)类算法和Byzantine Fault Tolerance(BFT)类算法。
- 非拜占庭容错类算法(出现故障但不伪造信息):Paxos,Raft。
- 拜占庭容错类算法(伪造信息恶意响应):PBFT为代表的确定性系列算法,PoW为代表的概率算法。对于确定性算法,一旦达成对某个结果的共识就不可逆转,即共识是最终结果;而对于概率类算法,共识结果则是临时的,随着时间推移或某种强化,共识结果被推翻的概率越来越小,成为事实上的最终结果。
4.一致性与共识性区别
一致性描述的是数据的状态,共识性描述的是达成一致性的过程。
要保证系统符合某一程度的一致性,需要通过共识算法来达成。