redis目录
概要
这篇文章主要是想通过一个简单的方式去介绍redis集群,而不会涉及到比较复杂的分布式算法概念。本文的内容主要涉及如何搭建集群、测试、操作三个方面,相信这篇文章可以让大家明白redis集群是如何跟用户进行交互的。
但是作者也希望从用户的角度,以一种容易理解的方式,向大家介绍redis在高可用以及数据的一致性充当的角色。
需要注意的是,本文介绍的所有内容,都要求是redis 3.0或以上的版本
Redis Cluster 101
Redis Cluster 支持自动复制数据到多个Redis节点上,Redis Cluster也支持网络分区下一定程度的高可用,例如某些节点失败或者不能通信这些常见的失败环境。但Redis 集群会在半数以上的节点都失败的情况下终止服务。
那么,如果在实际环境里面,你可以通过Redis 集群做什么呢?
- 自动复制数据到多个节点
- 保证可用,即使部分节点失败
Redis集群TCP端口
每一个节点都会需要监听两个TCP端口,基本的TCP端口6379(command port)用来向客户端提供服务,而另外一个端口则通过基本端口加10000的方式来获得,例如如果基本端口设置为6379,则另外一个端口是16379(cluster bus port)。
第二个端口,即cluster bus port,是用来进行失败检测,配置更新以及失败授权的;通信采用的协议是基于二进制的,可以节省带宽,提高通信效率。客户端不应该与第二个端口进行连接,而必须通过第一个端口;不过要注意的是,在linux系统中,你需要保证你的端口没有被防火墙阻止,否则集群中的redis节点之间就不能进行通信了。
Redis集群的数据复制
Redis集群没有使用一致性Hash算法,而是使用
一种将键值对的key保存在Hash槽(hash slot)的算法。
集群中将会有16384个Hash槽,为了计算一个给定的key是如何放进Hash槽里面的,我们会计算这个key的 CRC16校验值,然后再通过16384取模确认,即location = CRC16(KEY) MOD 16384。
每个节点都必须要负责管理Hash槽中的一个子集,假如你的集群里面共有3个节点,那么:
- 节点A包括0到5500的Hash槽
- 节点B包括5501到11000的Hash槽
- 节点C包括11001到16383的Hash槽
这样设置将会使从集群中删除和添加节点更容易。例如,如果想添加新的节点D,需要的是将A,B,CHash槽的部分移动到D节点;同样的,如果想从集群中移除A节点,可以把A中的Hash槽移动到B和C,等到A节点的Hash槽都移动完毕,是空的时候,就可以完全把A节点从集群中移除。因为移动Hash槽的过程中不需要停止节点的操作,更新、删除节点或者更新节点Hash槽的持有量不需要任何的停止时间。
(这里没有提到Hash槽的实现,而只是提到了Hash槽的作用)
Redis集群支持多键操作,在同一个命令或者同一个事务或者同一个lua脚本中的多键操作需要所有的key都在同一个Hash槽中,用户可以通过使用hash tags来让当前所有的key都在同一个Hash槽中。
Hash tags的核心概念是一个Key中的字符串中包含字符{},那么只有括号里面的字符串会进行Hash,例如键 "this{foo}key"或者键"another{foo}key"会被哈希到同一个hash槽里面,因为中括号里面括起来的字符串才能被哈希,而不是整一个Key包含的字符串。这样,两个不同Key的值,实际上可以通过相同的Key来访问了。
Redis 集群主从模式(Redis Cluster master-slave model)
Redis 集群无法保证强一致性。在实际环境里面,Redis集群有可能会丢失已经写入的数据,首个原因是因为Redis集群是异步复制数据的。也就是说会存在下面的场景:
- 你向主节点B写入数据
- 主节点B向客户端响应OK
- B1,B2,B3从节点从B主节点异步复制数据
在上面的条件下,B不会等待B1,B2,B3复制完就直接向客户端响应,这是一个潜在的非常大的不利因素,因为如果你的客户单在写入某些数据,B响应了,但是在从节点复制完数据之前挂了,从节点被选举为主节点后,这部分没复制完的数据将会永久丢失。
当然,Redis 也可以提供更强的一致性,但是这样就会让集群性能变得很低。一般的,需要在强一致性与性能之间做一个平衡。
Redis集群支持同步写入,通过WAIT命令实现,可以极大的减少数据写入丢失的情况。不过,Redis集群没有实现强一致性,即使使用了同步复制。因为还有更复杂的场景导致数据不一致的情况,例如一个不允许写入数据的从节点被选举为主节点。
假设有6个节点,由A,B,C,A1,B1,C1组成,A,B,C是主节点,另外三个是从节点,另外有一个客户端叫Z1。6个节点原来是出于同一个网络,后面因为网络问题,A,C,A1,B1,C1构成一个网络,B不能再跟其他5个节点进行通信,但是Z1客户端还是能够跟这6个节点通信,即集群发生了网络分区。如果网络分区发生时间较短,集群可以恢复,但是如果发生时间足够长,直到B1被选举成新的主节点,而Z1始终还是向B节点写入数据,那么Z1写入的数据就会丢失。
也就是说,对于Z1写入到B节点的数据会有一个最大的发送窗口:如果有足够的时间让主网络分区从新选举一个新的主节点,每一个在另外一个较少节点的网络分区的主节点会停止写入数据。
这个足够的时间对于配置Redis集群非常重要,可以叫它为节点超时(node timeout),当一个节点超时发生,一个主节点就会被判断为失败了,并且会被他的复制节点所代替。如果超时发生依然没有主节点能够感知其他的住节点,那么集群就会进入错误状态并且停止接收写请求
https://redis.io/topics/cluster-tutorial