第79篇
极客时间《从0开始学架构》课程笔记。
什么是接口级故障?
异地多活方案主要是应对影响大但发生概率较小的系统级故障,而发生概率更高但故障影响较小的故障就是接口级的故障。
接口级故障的典型表现:业务出现问题,但不是系统宕机或网络中断,比如响应慢、访问超时、访问异常、无法连接数据库等。
接口级故障原因
- 主要原因:系统压力太大、负载太高,导致无法快速处理业务请求
- 内部:程序bug导致死循环、某接口导致数据库慢查询、程序逻辑不完善导致内存耗尽
- 外部:黑客攻击、促销或抢购引入超量用户、第三方系统大量请求、第三方系统响应缓慢
接口级故障的应对方法
核心思想:优先保证核心业务、优先保证绝大部分用户
应对方法一:降级
定义:系统将某些业务或者接口的功能降低,可以是只提供部分功能,也可以是完全停掉所有功能。核心思想就是丢车保帅,优先保证核心业务。
两种降级方式:
- 系统后门降级
- 系统预留了后门用于降级操作
- 实现成本低
- 效率较低,且有一定安全隐患
- 独立降级系统
- 设计独立的降级系统,降级指令通过降级系统发送给非核心业务系统实现降级
- 安全性高,可实现复杂权限管理、批量管理
- 实现成本高
应对方法二:熔断
定义:当本系统依赖的外部系统接口出现响应慢的情况时,立即返回错误,避免本系统被拖慢或拖死。降级的目的是应对系统自身的故障,而熔断的目的是应对依赖的外部系统故障的情况。
实现关键:需要一个统一的API调用层,由API掉用层进行采样或统计;需确定一个熔断阈值。
应对方法三:限流
定义:从用户访问压力的角度着手,只允许系统能够承受的访问量进来,超出系统访问能力的请求将被丢弃。
常见的两类限流方式:
- 基于请求限流
- 从外部访问请求角度限制总量或限制时间量
- 限制总量的方式是限制某个指标的累积上限,常见的是限制当前系统服务的用户总量
- 限制时间量指限制一段时间内某个指标的上限
- 实现简单,但难以找到合适的阈值
- 适用于业务功能比较简单的系统,如负载均衡系统、网关系统、抢购系统
- 基于资源限流
- 从系统内部角度找到影响性能的关键资源,限制其使用上限
- 常见内部资源:连接数、文件句柄、线程数、请求队列
- 可以更加有效地反映当前系统压力
- 难点在于如何确定关键资源和关键资源的阈值
应对方法四:排队
定义:限流的一个变种,限流是直接拒绝用户,排队则是让用户等待一段时间。如12306网站抢票排队。
实现方式:
- 需设计独立的系统实现,包含排队模块、调度模块、服务模块
- 排队模块需临时缓存大量业务请求
- 调度模块负责排队模块到服务模块的动态调度,不只传递请求,还需要调节系统处理能力
- 服务模块负责返回处理结果