Redis 集群

1. 集群概述

Redis集群是Redis提供的分布式数据库方案,集群通过分片进行数据共享,提供复制和故障转移功能。

2.节点

一个Redis集群通常由多个节点组成,最初每个节点都是独立的,它们都处于只包含自己的集群之中,当通过CLUSTER MEET <ip> <port>命令将各个独立的节点连接起来之后,它们就组成了一个集群。
一个节点其实就是一个运行在集群模式下的Redis服务器。其所提供的功能与普通的Redis服务器一致的。

2.1 集群数据结构

集群的数据结构主要包含以下三个:
clusterState-->clusterNode-->clusterLink
它们三个是一个包含关系,具体如下图所示:


集群数据结构

每个节点都包含一个clusterState结构

2.2 CLUSTER MEET命令实现

通过向节点A发送CLUSTER MEET命令,客户端可以让接收命令的节点A将另一个节点B添加到节点A当前所在的集群里面。

CLUSTER MEET <ip> <port>

具体执行过程:
1.节点A为节点B创建一个clusterNode结构,并将该结构添加到自己的clusterState.nodes字典里面
2.节点A根据ip和端口号向节点B发送一条MEET消息
3.节点B接收到节点A的MEET消息,节点B为节点A创建一个clusterNode结构,并将该结构添加到自己的clusterState.nodes字典里面
4.节点B向节点A返回一条PONG消息
5.节点A接收节点B返回的PONG消息,通过这条消息直到节点B已经成功的收到自己发送的MEET消息
6.节点A向节点B发送一条PING消息,通过这条消息,节点B知道节点A已经成功的接收到自己的PONG消息,握手完成。

3.槽指派

Redis集群通过分片的方式来保存数据库中的键值对,集群中的整个数据库被分为16384个槽,数据库中的每个键都属于这16384个槽的其中一个,集群中的每个节点可以处理0~16384个槽。当数据库中16384个槽都有节点在处理时,集群处于上线状态,相反如果集群中有任何一个槽都有得到处理,那么集群处于下线状态。
通过向节点发送如下命令可以将一个或多个槽指派给指定的节点负责:

CLUSTER ADDSLOTS <slot> [slot ...]

3.1 槽指派信息记录

槽指派信息记录在两个地方:

  • clusterNode结构中,记录了当前节点的槽信息,包含当前节点处理哪些槽以及槽的数量
  • clusterState记录了集群中所有16384个槽的分配

clusterNode中包含如下两个字段:

...
#slots为一个二进制位数组,每一位代表16384个槽中其中一个,1代表当前节点处理的槽,0表示非当前节点处理的槽
unsigned char slots[16384/8];
#当前节点处理槽的数量
int numslots;
...

clusterState中包含如下字段:

...
#包含一个长度为16384的数组,数组每一个元素代表了一个槽所指派给的节点
clusterNode *slots[16384];
...

一个例子如下:


clusterState

3.2 CLUSTER ADDSLOTS命令执行

1.遍历所有输入槽,检查它们是否都未指派槽,只要有一个槽被指派,那么返回失败,命令中止
2.再次遍历所有输入槽,将这些槽指派给当前节点

4.在集群中执行命令

具体执行流程如下所示:


在集群中执行命令

4.1MOVED错误

格式:

#<ip>:<port>为负责处理当前<solt>的节点
MOVED <solt> <ip>:<port>

在集群模式下,客户端接收到MOVED错误后,会直接重定向到相应的节点,然后重新发送命令进行执行,因此MOVED错误会被隐藏,但是在Redis单机模式下,MOVED错误是会被打印出来的。

4.2 键与槽之间的映射

每个Redis的键与槽之间的映射会保存在一张跳跃表中:

...
zskiplist *solts_to_keys;
...

solts_to_keys中跳跃表每个元素的分值即为槽值,元素的具体成员即为数据库的键。

5.重新分片

当需要将一个节点的槽分配给其他节点时,就需要进行重新分片。具体执行过程由redis-trib负责执行,具体一个槽的重新分配过程如下:
1.redis-trib对目标节点发送命令CLUSTER SETSOLT <slot> IMPORTING <source_id>,让目标节点准备好从源节点倒入属于<slot>的键值对
2.redis-trib对源节点发送命令CLUSTER SETSOLT <slot> MIGRATING <target_id>,让源节点最好准备将属于槽<slot>的键值对迁移至目标节点
3.redis-trib对源节点发送命令CLUSTER GETKEYSINSLOT <slot> <count>,获取最多count个属于槽<slot>的键值对的键名。
4.对于3中获取到的每个键名,redis-trib向源节点发送命令MIGRATE <target_ip> <target_port> <key_name> 0 <timeout>,将被选中的键原子的从源节点迁移至目标节点。
5.重复步骤3和4,直到源节点保存的所有属于槽solt的键值对都被迁移至目标节点为止
6.redis-trib向集群中的任意一个节点发送命令CLUSTER SETSOLT <solt> NODE <target_id>,将槽solt指派给目标节点,这一指派信息会通过消息发送至整个集群,最终整个集群中的所有节点都会直到槽solt已经指派给了目标节点

5.1 ASK错误

在槽的迁移过程中不可避免的会出现一个时间段中一部分键存储在源节点中,一部分键存储在目标节点中。此时如果客户端向槽中键发起redis命令,就有可能产生ASK错误。


ASK错误

5.2 CLUSTER SETSOLT <slot> IMPORTING 命令执行

clusterState结构中的clusterNode *importing_solts_from[16384]会记录当前节点正在由其他节点导入的槽:

IMPORTING

5.3 CLUSTER SETSOLT <slot> MIGRATING

clusterState结构中的clusterNode *migrating_solts_to[16384]会记录当前节点正在迁移至其他节点的槽:

MIGRATING

5.4 ASKING命令执行

ASKING命令执行

需要注意的是REDIS_ASKING标识是一个一次性的标识,当节点执行了一个带有REDIS_ASKING标识的客户端发送的命令之后,客户端的REDIS_ASKING标识就会被移除。

5.5 ASK错误和MOVED错误的区别

-MOVED错误表示槽的负责权已经从一个节点转移到另一节点
-ASK错误表示的是槽在转移过程中的一个临时措施

6.复制与故障转移

当需要为某个主节点设置从节点时,就需要进行复制

6.1设置从节点

通过命令:

CLUSTER REPLICATE <node_id>

进行设置,具体执行过程如下:
1.接收到该命令的节点首先会在自己的clusterState.nodes字典中找到node_id所指向的clusterNode结构,并将自己的clusterState.myself.slaveof指针指向这个结构,以此来记录这个节点正在复制的主节点
2.节点修改clusterState.myself.flags中的REDIS_NODE_MASTER-->REDIS_NODE_SLAVE
3.调用复制代码进行数据复制
一个从节点的结构示例如下:


从节点的结构

一个主节点结构示例如下:


主节点结构

6.2 故障检测

集群中的每个节点都会定期向其他节点发送PING消息,以此来进行检测其他节点是否在线,如果接收PING消息的其他节点没有在指定的时间内返回PONG消息,那么当前节点就会在clusterState结构中找到目标节点的clusterNode将其标记为疑似下线:REDIS_NODE_PFAIL。当集群中半数以上负责处理槽的主节点都将某个主节点标记为疑似下线时,那么这个主节点被在集群中广播一条标记为下线的FAIL消息。

6.3故障转移

主节点确认下线后,集群会选举出新的主节点,被选中的节点,会执行slave no one命令,成为新的主节点,新的主节点会撤销所有对已下线的主节点的槽指派,并将这些槽全部指派给自己。新的主节点广播一条PONG消息,让集群中其他节点都指定这个节点已经变成了主节点。新的主节点开始进行命令处理,完成故障转移。
选举新的主节点的方式与Sentinel中选举领头Sentinel一致,都是使用了Raft的龙头选举方法来实现的。

7.消息

Redis集群提供了以下5种消息:

  • MEET消息:加入集群消息
  • PING消息:集群中每个节点每隔一秒钟会从已知节点列表中选出5个节点,然后对这5个节点中最长时间没有发送PING消息的节点发送消息。另外,如果节点A最后一次接收到节点B发送的PONG消息的时间距离当前时间已经超过节点A的cluster-node-timeout选项设置的一半,那么节点A也会向节点B发送PING消息。
  • PONG消息:确认消息到达时,返回的消息。
  • FAIL消息:节点下线时发送的消息
  • PUBLISH消息:当节点接收到一个PUBLISH命令时,节点会执行这个命令,并向集群中广播一条PUBLISH消息,所有接收到这条PUBLISH消息的节点都会执行相同的PUBLISH命令

8.参考资料

《Redis设计与实现》

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容