Spring Cloud Alibaba Naco作为注册中心不止提供了服务注册和服务发现功能,还提供了服务可用性监测的机制。有了这机制之后,Nacos才能感知服务的健康状态,从而为服务调用者提供健康的服务实例,最终保证了业务系统能够正常的执行。
两种健康检查机制
Nacos中提供两种健康检查机制:
- 客户端主动上报机制
- 服务器端主动下探机制
如何理解这两种机制呢?可以想象一个场景,你在学校的教室里面,遇到学业上的问题,或者是科目上的问题。那有什么办法让老师知道你有问题?
- 第一种,你主动去找老师并且告诉老师你的问题和精神状态(健康状态)
- 第二种,老师自己发现你的状态有问题,及主动询问你的问题和状态
以上这两种方法和Nacos的两种健康检查机制类似,也就是客户端主动上报机制,是客户端每隔一段时间,主动向Nacos服务器端上报自己的健康情况,而服务器端下探机制是Nacos服务器端来检测客户端是否健康
如何设置健康检查机制
Nacos中的健康检查机制不能主动设置,但健康检查机制是和Nacos的服务实例类型强相关的。也就是说Nacos中的两种服务实例分别对应了两种健康检查机制:
- 临时实例(非持久化实例):对应客户端主动上报机制
- 永久实例(持久化实例):对应服务器端主动下探机制
为什么需要两种服务实例呢?
以淘宝为例,双十一大促期间,流量会比平时高出很多,此时服务肯定需要增加更多实例来应对高并发,而这些实例在双十一之后就无需继续使用了,采用临时实例比较合适。而对于服务的一些常备实例,则使用永久实例更为合适。
客户端主动上报机制
临时实例每隔5秒会主动上报一次自己的健康状态,发送的数据包叫做心跳包
,发送心跳包的机制叫做心跳机制
。如果心跳包的间隔时间超过了15秒,那么Nacos服务器端就会将此服务实例标记为非健康实例,如果心跳包超过30 秒,那么Nacos服务器端将会把此服务实例从服务列表中剔除。
服务器端主动下探机制
永久实例使用的服务器端主动下探机制的方式实现健康检查的,它的探测周期是2000毫秒+随件数(5000毫秒内),如果检测异常会将此服务实例,标记为非健康实例,但不会把服务实例像临时实例那样中服务列表中剔除。Nacos服务器向下探方式目前内置了3种探测协议:HTTP探测、TCP探测和Mysql探测。一般而言HTTP和TCP探测已经可以涵盖绝大多数的健康检查场景,Mysql主要用于特殊的业务场景,列如数据库的主备需要通过服务外对外提供访问,需要确定当前访问数据库是否为主库时,那么我们此时的健康检查接口,是一个检查数据库是否为主库的Mysql命令。
TCP探测
默认情况下,永久实例使用的是TCP探测,这点可以在Nacos控制台观察到,如图:
默认会使用IP端口来检查,如图:
TCP探测的大体逻辑是通过与注册实例简历channel,不断ping注册实例的端口,来判断实例是否健康。
HTTP探测
HTTP 探测需要在 Nacos 控制台手动配置,如图:
我们在服务实例中添加探测接口的实现代码:
此时我们重新启动服务实例,在服务详情中可以看到我们配置的 HTTP 探测已经生效了,可以检查出实例是健康的,如图:
Nacos 服务器端通过检查 HTTP 的接口是否返回 200 状态码,来判断实例是否为健康状态。
集群下的健康检查机制
集群下的健康检查机制可以用一句话来概括:“各司其职”。每个服务对应了一个主注册中心,当注册中心接收到临时实例的心跳包之后,将健康状态同步到其他注册中心。而永久实例也是类似的,每个服务对应一个注册中心,当负责的注册中心下探到服务实例的健康状态发生改变时,将实例的健康状态同步到其它的注册中心,从而实现了集群下的健康检查机制。