在微服务结构中,服务之间通常存在级联调用,如A服务调用B服务,B服务调用C服务等。如果其中一个挂掉或者任意一个点不可用或存在响应延时,则可能导致很多服务不可用,产生级联故障。如果请求很多,服务不可用导致请求越来越多,占用太多系统资源,从而导致系统瓶颈,造成整个系统不可用,该现象就是“服务雪崩”。
简单理解: 服务提供者 不可用导致服务消费者不可用,并将不可用逐步扩大到整个微服务系统,造成系统崩溃。
造成服务雪崩的原因
1. 流量激增
如:促销活动,爬虫采集,恶意攻击等
2. 硬件故障
单点硬件损坏使得集群的服务压力加大,从而出现服务延迟,服务延迟不断加剧导致服务雪崩。
3. 程序BUG
如循环调用
4. 缓存问题
缓存穿透,缓存击穿,缓存雪崩导致服务雪崩
4.1 缓存穿透
- 原因: 用户不断请求缓存或数据库不存在的数据。导致数据压力过大
- 解决问题:
- 在接口层增加校验,如用户鉴权,防止爬虫
- 增加ID基础校验,如设置当ID<=0 或ID>=max时直接拦截请求
- 将KEY-Value 对写成Key-Null对,缓存有效时间可以在合理范围内设置长点,但又不能设置太长,太长会导致其他正常情况也没法使用。
4.2 缓存击穿
- 原因: 缓存中没有数据,但是数据库中有数据,这个时候并发用户特别多,去缓存中没读取到数据,又去数据库读取数据,引起数据库压力瞬间增大。
- 解决问题: 可以通过设置热点数据永不过期、加互斥锁等解决。
4.3 缓存雪崩
- 原因: 缓存中大量数据过期,这个时候查询量很大,引起数据库压力过大甚至宕机。
- 解决问题:
(1)可以设置缓存过期时间为随机,防止同一时间大量数据过期。
(2)设置热点数据永不过期。
5. 资源耗尽
服务调用者不可用导致同步等待,进而造成资源耗尽。
用户大量请求,以及重试流量加大。
6. 线程同步等待
核心服务员和非核心服务共用一个线程池和消息队列。如果非核心线程出现问题由于系统时同步调用会导致核心线程阻塞。 进程间调用有超时限制,如果这个核心线程断掉,则可能引发雪崩。
主流容错项目框架
目前主流的容错处理框架有Sentinel、Resilience4j、Hystrix
本文主要以Hystrix为例,解决服务雪崩问题。
Hystrix通过隔离、降级机制、熔断、缓存四个方面解决雪崩问题。
- 隔离
限制调用分布式服务的资源,使得一个出现问题不会影响其他服务 - 降级机制
在超时、资源不足时进行降级,在降级后可以配合降级接口返回拖底数据。 - 熔断
当失败率达到阈值时自动触发降级。 - 缓存
提供请求缓存、请求合并实现。
在Feign中使用Hystrix实现服务调用的容错
1. 添加依赖
<dependency>
<groupId>org.springframework.cloud</groupId>
<artifactId>spring-cloud-starter-openfeign</artifactId>
</dependency>
<dependency>
<groupId>org.springframework.cloud</groupId>
<artifactId>spring-cloud-starter-netflix-eureka-client</artifactId>
</dependency>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>
2. 添加配置
在application.properties中添加配置
spring.application.name=spring-cloud-consumer-hystrix
server.port=9001
feign.hystrix.enabled=true
eureka.client.serviceUrl.defaultZone=http://localhost:8000/eureka/
在启动类中添加对Feign的支持
@SpringBootApplication
@EnableFeignClients
public class SpringCloudConsumerHystrixApplication {
public static void main(String[] args) {
SpringApplication.run(SpringCloudConsumerHystrixApplication.class, args);
}
3. 实现回调类
@Component
public class HelloHystrix implements MyFeignClient {
@Override
public String hello(@RequestParam(value = "name") String name) {
return "hello" +name+", this messge send failed ";
}
}
4. 添加fallback属性
@FeignClient(name = "spring-cloud-provider", fallback = HelloHystrix.class)
public interface MyFeignClient {
@RequestMapping(value = "/hello")
public String hello(@RequestParam(value = "name") String name);
}
5. 测试
依次启动spring-cloud-eureka、spring-cloud-producer、spring-cloud-consumer三个项目。
浏览器中输入:http://localhost:9001/hello/?name=XX
返回:hello XX,this is first messge
说明加入熔断相关信息后,不影响正常的访问。接下来我们手动停止spring-cloud-producer项目再次测试:
浏览器中输入:http://localhost:9001/hello/?name=XX
返回:hello XX, this messge send failed
根据返回结果说明熔断成功。