环境:
- ActiveMQ 5.13.4
- 8000台Client与8台AMQ组成的集群连接
- 每台Client使用非持久化订阅TOPIC上的消息,TOPIC名称为C类网段地址,如:192.168.1.1的Client 消费 TOPIC:VLAN.192.168.1
- Client使用failover机制,断线自动重连,自动重建消费者,自动连接时F5不使用会话保持(相当于从一串MQ地址中随机选择一个)
- 生产者随机连接MQ集群中的一台,往topic上发送非持久化消息
- MQ集群内部通信是通过互相建立消费者来实现的。比如消费者连接到A,生产者连接到B,那消息发送到B,A会往B建立一个消费者去消费消息,而后再把消息转给连接到自己的消费者
现象:
假设 Client_A连接MQ_A,消费TOPIC_A。消息下发时,出现Client_A接收不到消息的情况。
Client_A连接的MQ_A上只有这个Client_A一个消费者消费TOPIC_A上的消息。
查看TOPIC的订阅者信息,除了Client_A外,还可能出现该MQ转发到其他MQ上的虚拟消费者,表示发到这个TOPIC的消息需要被转发给其他MQ
集群内其他所有MQ上的TOPIC_A上查看订阅者,均未出现类似的虚拟消费者,表示消息不会被转发到MQ_A,所以Client_A无法收到消息。
重启Client,Client会自动飘到集群内其他的MQ上,此时可以正常消费。
指定MQ_A要求Client_A重启后连接到MQ_A,也可以正常消费。
MQ内部的集群机制是这样的:
MQ_A启动后,检查集群内是否有其他MQ(假设有MQ_B)
MQ_A与MQ_B之间互相建立连接(共两个),A到B的21591端口和B到A的21591端口,相当于互相建立生产者。
建立A到B的连接后,A开始监听B的所有的系统TOPIC:ActiveMQ.Advisory.Consumer.> (>表示通配符,相当于 *),这个系统TOPIC的功能是当B上出现一个消费者的时候,会往这个TOPIC里发送一条消息。
比如一个Agent 192.168.1.1 启动后,连接到B,就会建立一个到B上的 TOPIC: VLAN.192.168.1 的消费者,这时MQ_B上的ActiveMQ.Advisory.Consumer.Topic.VLAN.192.168.1 里就会出现一条消息,表示有个消费者与 TOPIC: VLAN.192.168.1 建立了消费关系。
此时A通过网络连接就可以拿到这条消息,并在本机建立一个虚拟消费者,虚拟消费者消费TOPIC: VLAN.192.168.1 上的消息,并将消息发送给B。此时在A上查看这个TOPIC下的消费者,会发现多了一个NC开头的消费者。可实际上并不是从B上建立的到A的消费者,而是A自己内部建立的虚拟消费者,表示这个TOPIC的消息要被转发到B。B收到消息以后,将消息转发给Agent
对于源码的解读没什么眉目,可以等以后整理一下集群建立消费者的机制,但是没有看出什么bug来。
于是开发了个日志插件来记录消费者的建立,集群消费者的互建过程。原理就是在消费者建立和移除时,记录该消费者的目的地,consumerid和remoteAddress。目前刚放到测试环境上,明天看看效果。。
目前想到的规避方案:
- 尝试不使用C类网段,而是B类或者A类网段,这样同一个TOPIC的消费者数量增加,触发BUG的概率就减少了
- 设计一个机制可以发现这个问题,然后重启Client
- 查查AMQ的issue日志,看看是否新版本解决了这个问题。