一、问题描述
微服务之间的调用或者网关转发请求到服务,是通过向服务注册中心请求来获取可用的服务列表。为了提高性能,每个微服务都会缓存一份获取到的服务列表。这样就导致在一个微服务容器关闭时,即使微服务注册中心及时的注销了这个服务节点,但是还是会有一部分请求被分发到这个已关闭的节点。ribbon
调用是不平滑的,shutdown
请求到后服务就马上关闭了,服务消费此时未感应到服务下线了,会仍然往这个服务发送请求,从而导致报错。
二、方案
建议:无论用那种方式,重要接口最好做降级处理。
2.1 方案一、启用服务的重试功能
这个方案需要保证所有接口的处理都是幂等的,对接口处理的设计要求比较高,而且也可能会带来额外的问题。
1、引入pom
<dependency>
<groupId>org.springframework.retry</groupId>
<artifactId>spring-retry</artifactId>
</dependency>
2、加入配置
ribbon.OkToRetryOnAllOperations:true
#(是否所有操作都重试,若false则仅get请求重试)
ribbon.MaxAutoRetriesNextServer:3
#(重试负载均衡其他实例最大重试次数,不含首次实例)
ribbon.MaxAutoRetries:1
#(同一实例最大重试次数,不含首次调用)
ribbon.ReadTimeout:30000
ribbon.ConnectTimeout:3000
ribbon.retryableStatusCodes:404,500,503
#(那些状态进行重试)
spring.cloud.loadbalancer.retry.enable:true
# (重试开关)
2.2 方案二、在服务关闭前从注册中心注销后,仍然保留一段时间服务响应能力,之后再关闭
2.2.1 注销服务说明
1、注销Eureka服务
默认当Eureka Server连续3次(默认心跳间隔是30s)没有收到该服务的心跳时,会自动将该实例注销(进入自我保护模式时除外)。但是也可以通过手动发送 DELETE 请求到 Eureka Server 来注销服务实例。
curl -v -X DELETE http://{Eureka Server 地址}/eureka/apps/{Application 名}/{Eureka 实例的 ID}
Eureka 实例的 ID 可以在 Eureka Server 页面上查看到。
2、注销Nacos服务
Nacos默认心跳时间是30秒
curl -X DELETE '127.0.0.1:8848/nacos/v1/ns/instance?serviceName=nacos.test.1&ip=1.1.1.1&port=8888&clusterName=TEST1'
注销实例没什么特别的处理,我们可以简单理解成Nacos是将请求下线的节点从持有的服务列表中删除该节点。
2.2.2 自定义了一个EndPoint在其中注销Nacos服务
之所以通过 Actuator 暴露接口来调用是因为通过设置来保证其安全性,具体的方法可以参考这篇博客:修改 Actuator 路径和端口。
这种方式通过在微服务中调用 Nacos 提供的接口来注销,注销之后就不会再发送心跳。之后通过 Sleep 一定的时间来阻止服务的关闭,使其仍然可以保持响应一段时间。这里需要配合阿里云容器服务( Kubernetes 版) 的 停止前处理 功能来触发。
1、添加自定义的 EndPoint
import com.alibaba.cloud.nacos.NacosDiscoveryProperties;
import com.alibaba.nacos.api.exception.NacosException;
import com.alibaba.nacos.api.naming.NamingService;
import lombok.RequiredArgsConstructor;
import lombok.extern.slf4j.Slf4j;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.boot.actuate.endpoint.annotation.DeleteOperation;
import org.springframework.boot.actuate.endpoint.annotation.Endpoint;
import org.springframework.boot.actuate.endpoint.annotation.Selector;
import org.springframework.stereotype.Component;
import java.net.InetAddress;
import java.net.UnknownHostException;
import java.util.HashMap;
import java.util.Map;
@Component
@Endpoint(id = "nacos")
@RequiredArgsConstructor
@Slf4j
public class NacosEndpoint {
private final NacosDiscoveryProperties nacosDiscoveryProperties;
@Value("${spring.application.name}")
private String applicationName;
@Value("${server.port}")
private Integer port;
@DeleteOperation
public Map<String, String> deregister() {
return deregisterAndSleep(0);
}
@DeleteOperation
public Map<String, String> deregisterAndSleep(@Selector int seconds) {
Map<String, String> result = new HashMap<>();
InetAddress addr = null;
try {
addr = InetAddress.getLocalHost();
} catch (UnknownHostException e) {
log.error(e.getMessage(), e);
result.put("code", "failure");
result.put("message", e.getMessage());
return result;
}
log.info(String.format("Deregister nacos instance (%s - %s:%d)", applicationName, addr.getHostAddress(), port));
NamingService namingService = nacosDiscoveryProperties.namingServiceInstance();
try {
namingService.deregisterInstance(applicationName, addr.getHostAddress(), port);
} catch (NacosException e) {
log.error(e.getMessage(), e);
result.put("code", "failure");
result.put("message", e.getMessage());
return result;
}
log.info("Deregister nacos instance success.");
if (seconds > 0) {
try {
log.info(String.format("Thread sleep %d seconds.", seconds));
Thread.sleep(seconds * 1000);
} catch (InterruptedException e) {
e.printStackTrace();
log.error(e.getMessage(), e);
result.put("code", "failure");
result.put("message", e.getMessage());
return result;
}
}
result.put("code", "ok");
return result;
}
}
2、配置 K8S
在 阿里云容器服务(Kubernetes版)的停止前处理 中调用该 EndPoint ["curl","-X","DELETE","http://localhost:5678/customize-actuator/nacos/30"]
2.3 方案三、本公司方案
K8S配一个探针,每隔1秒去访问服务的端口,判断服务是否可用,当发布版本更新服务,该服务端口可用30秒后,才把流量分配给该服务。