看了一天gnatsd集群相关的源码差点没把我给绕晕,总算是搞个大体明白了。
集群连接
集群中的每个服务器之间都是互相通过route连接。
server1启动一个route进行tcp监听等待远程route连接。
收到server2的route client连接以后,server1调用sendInfo发送本服务器的一堆信息。
server2也开启route server监听等待别的route连接,当server2 route client收到server1的info后转发给其他连接上来的route,其他route根据info也去连接server1。
这样形成所有集群里的server全都互相连接在一起。
sub订阅消息
当一个server1收到user1 sub <subject1> <user1sid> 时会先本地订阅,然后把sub消息广播给所有其他route。
广播时重新定义了sid也就是subid。sid的值为:
(Q)RSID:<cid>:<sid>
当sub是queue类型的主题时前缀是:QRSID,如果是普通sub则是RSID。
cid是当前user client的id,sid是user1sid。
当远程route收到此订阅消息时以route身份订阅此消息并且记录新的sid。此时route跟其他user client一样都在服务器的订阅者列表中。
也就是说一个user在某个server上订阅了消息以后,集群中的所有服务器收到广播都会以route身份也订阅此消息。
所以所有server都有完整的订阅列表,只不过订阅者一部分是正常本地登录的user client,另一部分是route。
pub普通消息
发送普通消息比较简单。
user1.pub <subject1> msg1 给server1时,server1把msg1转发给所有订阅者,其中有可能有route的订阅者。
当route收到pub消息时,route把消息发给远程route。
远程route收到消息后,遍历发送给其本地的user client订阅者。
这样一条pub普通消息就发给了集群里的所有订阅者。
pub queue消息
当pub一条消息给订阅主题而这订阅主题属于queue时,只随机选择此queue中的一个订阅者发送消息,也就是一个queue消息最多只有一个消费者,而且是随机分配的。
user1.pub <subject1> msg1 给server1时,如果此subject1是个qsub,server1在本地qsubs中随机选择一个sub发送消息,选择的sub有可能是本地user client,此时发送消息完成就没事了。如果选择的sub刚好是个route的话,此时把消息发给远程route,而sid是此远程route订阅时指定的sid:(Q)RSID:cid:sid
。
当远程route收到本地route转发的pub queue消息以后,先解析出cid和sid,检查cid对应的user client是否还存在,如果存在根据sid找到订阅者sub,然后给sub发消息,这样消息就递交到了最终的user client中。
总结
gnatsd集群其中一台server挂掉之后,只影响连接在此server上的用户,其他集群可以正常工作。
集群开启后,随时可以开启一个新的server加入集群中的某一台server,新的server会自动连接到集群中所有其他server。
说实话gnatsd集群这块代码写的真的挺难看的,全混在一起,看的人眼花缭乱晕头转向。