为了保障程序的高可用性,避免用户在使用公司产品的时候,突然挂掉访问不了,一般公司的后台服务,都需要部署多个实例,这样就算一个挂了,另外几个实例还能够正常的工作,也就是做了所谓的负载均衡。
这样也就会产生了一个问题,服务中的定时脚本也会被部署多份,当指定的时间一到,脚本也会运行多个,可能会造成一些不必要的计算和麻烦。
怎么去保证,同一时刻,只有一个脚本在运行呢?比较好的,普遍适用的方式,就是使用分布式锁。
分布式锁的使用
假设你启动了多个实例A, B, C, D,为了达到同一时间只有一个实例在运行,我们需要在redis里面设置一把锁:
SETNX keyName = 1
上面的SETNX
命令只有当keyName没有被设置值的时候,才会成功,这样,当A, B, C, D在启动的时候,先去执行上面的命令,成功的那个,才去执行,就可以保证同一时刻只有一个脚本在运行,当然程序运行结束后,需要执行:
DEL keyName
来释放锁。
死锁问题
但是这样也有一个问题,假设A设置了锁,但是在后续执行的时候,程序奔溃了,这样keyName
的值永远为1,B, C, D再也没有获取到锁的机会,甚至连A自己重新启动后也无法获取锁。
为了避免这种问题,我们可以为keyName
设置一个超时时间t
,这样即使拿到锁的程序崩溃了,超时时间一过,锁也会自动释放。
锁冲突问题
一般情况下,为了避免单点故障,我们一般会采用redis的主从架构,一个redis的master节点,挂上n个slave从节点,这样如果master奔溃了,会启用一个slave节点继续服务,考虑这样一种情况:
- A调用
SETNX
设置了master节点上的锁,然后开始执行。- master节点在将锁的信息同步到slave节点前,崩溃了
- slave被切换成master继续服务,但此时这个节点没有了锁的信息
- B调用
SETNX
也成功的设置了锁(跟A冲突)
这种问题怎么处理呢?我们需要借助另外的一些master节点,假设你有N个redis的master节点,并且这些节点之间相互独立,不存在同步数据的关系,然后获取锁的操作走下面的过程:
- 获取当前时间
t
- 然后用
t
尝试在N个master节点上轮流获取锁,只有当客户端在大部分master节点上获取到了锁,才认为这个锁是有效的,否则就释放所有的锁。
延时问题
上面这么干,锁是不是靠谱?会不会有两个客户端可能同时拿到锁?答案是有可能的!
我们来分析一下,假设从0时刻开始,客户端向R1, R2, R3, R4, R5三个master节点发送了获取锁的请求,假设获取了R1, R3, R4三把锁,受网络影响,拿到锁消耗的实践分别为T1, T2, T3:
如果锁的超时时间设置为T,三把锁分别释放的时间为T11, T22和T33:
注意,客户端至少在T2,才会认为自己拿到锁,所以它会认为自己在T22时刻才失去锁,但是在T33时刻,客户端A已经释放了R1上的锁,此时另外的一个客户端是有可能拿到大部分的锁成为锁的拥有者,同样会造成锁冲突。
当然解决方法也是有的,就是定义锁的超时时间为:最先释放锁的时间-获取锁的总消耗时间,比如上面的情况,超时时间就应该定义为:T11-T2
时钟差问题
超时问题解决之后,是不是一定可以保证互斥性了呢?也不一定,因为各个机器之间还可能存在着时钟差问题,比如客户端认为的T11时刻,R1所在的服务器可能认为是T1',R3所在的服务器可能认为是T1'':
所以,客户端以为自己还在持有锁,但实际情况可能这把锁已经被master节点释放掉了,这种情况该如何处理呢?
这个的解决方式也很简单,我们只需要把过期时间定义为:T1'-T2就可以了,其中T1' = T11 - TT,TT表示机器之间的时钟偏差,一般这个偏差在几毫秒左右。
总结
时钟偏差问题解决后,锁是不是一定就是安全的了呢?忽略一些可有可无的细节问题,目前来看是安全的,这种锁也是redis官方推荐的,但是官方也承认可能隐藏着一些不可知的因素,具体还是要等待大家的发现。