产生原因
在分布式应用中,容易出现由某个基础服务故障引发整个集群了崩溃,称之为雪崩。
熔断器模式
熔断器模式可以有效防止对故障服务的不断重试,可以使服务调用者继续执行不用不用等待错误的修正,或者浪费cpu等待超时发生。熔断器模式也可以使应用程序能够诊断错误是否已经修正,如果已经修正,应用程序会再次尝试调用操作。
熔断器模式为远程服务提供的关键能力:
- 快速失败-当远程服务处于降级状态时,应用程序将会快速失败,并防止通常会拖垮整个应用程序的资源耗尽问题的出现。在大多数中断情况下,最好是部分服务关闭而不是完全关闭。
- 优雅地失败-通过超时和快速失败,熔断器模式使应用程序开发人员有能力优雅地失败或提供替代方案。
- 无缝恢复-熔断器模式可以定期检查所请求的资源是否重新上线,并在没有认为干预的情况下重新允许对该资源进行访问。
实现
熔断器模式其实就是对服务的调用做了一层代理,对最近服务固定时间段调用错误次数进行统计,如果达到指定次数,则直接返回失败,并允许再接下的时间段内允许个别调用者真实调用服务,如果成功则认为服务已正常,允许后面服务的正常调用,否则继续返回失败。
- 闭合(closed)状态: 对应用程序的请求能够直接引起方法的调用。代理类维护了最近调用失败的次数,如果某次调用失败,则使失败次数加1。如果最近失败次数超过了在给定时间内允许失败的阈值,则代理类切换到断开(Open)状态。此时代理开启了一个超时时钟,当该时钟超过了该时间,则切换到半断开(Half-Open)状态。该超时时间的设定是给了系统一次机会来修正导致调用失败的错误。
- 断开(Open)状态:在该状态下,对应用程序的请求会立即返回错误响应。
- 半断开(Half-Open)状态:允许对应用程序的一定数量的请求可以去调用服务。如果这些请求对服务的调用成功,那么可以认为之前导致调用失败的错误已经修正,此时熔断器切换到闭合状态(并且将错误计数器重置);如果这一定数量的请求有调用失败的情况,则认为导致之前调用失败的问题仍然存在,熔断器切回到断开方式,然后开始重置计时器来给系统一定的时间来修正错误。半断开状态能够有效防止正在恢复中的服务被突然而来的大量请求再次拖垮。
需要考虑的因素
- 异常处理:调用受熔断器保护的服务的时候,我们必须要处理当服务不可用时的异常情况。这些异常处理通常需要视具体的业务情况而定。比如,如果应用程序只是暂时的功能降级,可能需要切换到其它的可替换的服务上来执行相同的任务或者获取相同的数据,或者给用户报告错误然后提示他们稍后重试。
- 异常的类型:请求失败的原因可能有很多种。一些原因可能会比其它原因更严重。比如,请求会失败可能是由于远程的服务崩溃,这可能需要花费数分钟来恢复;也可能是由于服务器暂时负载过重导致超时。熔断器应该能够检查错误的类型,从而根据具体的错误情况来调整策略。比如,可能需要很多次超时异常才可以断定需要切换到断开状态,而只需要几次错误提示就可以判断服务不可用而快速切换到断开状态。
- 日志:熔断器应该能够记录所有失败的请求,以及一些可能会尝试成功的请求,使得的管理员能够监控使用熔断器保护的服务的执行情况。
- 测试服务是否可用:在断开状态下,熔断器可以采用定期的ping远程的服务或者资源,来判断是否服务是否恢复,而不是使用计时器来自动切换到半断开状态。这种ping操作可以模拟之前那些失败的请求,或者可以使用通过调用远程服务提供的检查服务是否可用的方法来判断。
- 手动重置:在系统中对于失败操作的恢复时间是很难确定的,提供一个手动重置功能能够使得管理员可以手动的强制将熔断器切换到闭合状态。同样的,如果受熔断器保护的服务暂时不可用的话,管理员能够强制的将熔断器设置为断开状态。
- 并发问题:相同的熔断器有可能被大量并发请求同时访问。熔断器的实现不应该阻塞并发的请求或者增加每次请求调用的负担。
- 资源的差异性:使用单个熔断器时,一个资源如果有分布在多个地方就需要小心。比如,一个数据可能存储在多个磁盘分区上(shard),某个分区可以正常访问,而另一个可能存在暂时性的问题。在这种情况下,不同的错误响应如果混为一谈,那么应用程序访问的这些存在问题的分区的失败的可能性就会高,而那些被认为是正常的分区,就有可能被阻塞。
- 加快熔断器的熔断操作:有时候,服务返回的错误信息足够让熔断器立即执行熔断操作并且保持一段时间。比如,如果从一个分布式资源返回的响应提示负载超重,那么可以断定出不建议立即重试,而是应该等待几分钟后再重试。(HTTP协议定义了"HTTP 503 Service Unavailable"来表示请求的服务当前不可用,他可以包含其他信息比如,超时等)
- 重复失败请求:当熔断器在断开状态的时候,熔断器可以记录每一次请求的细节,而不是仅仅返回失败信息,这样当远程服务恢复的时候,可以将这些失败的请求再重新请求一次。
Hystrix熔断器实现
简介
Hystrix是Netflix公司开源的防雪崩的利器,是一个帮助解决分布式系统交互时超时处理和容错的类库, 拥有保护系统的能力。
实现
/**
* Circuit-breaker logic that is hooked into {@link HystrixCommand} execution and will stop allowing executions if failures have gone past the defined threshold.
* <p>
* The default (and only) implementation will then allow a single retry after a defined sleepWindow until the execution
* succeeds at which point it will again close the circuit and allow executions again.
*/
public interface HystrixCircuitBreaker {
/**
* Every {@link HystrixCommand} requests asks this if it is allowed to proceed or not. It is idempotent and does
* not modify any internal state, and takes into account the half-open logic which allows some requests through
* after the circuit has been opened
*
* @return boolean whether a request should be permitted
*/
boolean allowRequest();
/**
* Whether the circuit is currently open (tripped).
*
* @return boolean state of circuit breaker
*/
boolean isOpen();
/**
* Invoked on successful executions from {@link HystrixCommand} as part of feedback mechanism when in a half-open state.
*/
void markSuccess();
/**
* Invoked on unsuccessful executions from {@link HystrixCommand} as part of feedback mechanism when in a half-open state.
*/
void markNonSuccess();
/**
* Invoked at start of command execution to attempt an execution. This is non-idempotent - it may modify internal
* state.
*/
boolean attemptExecution();
这是熔断器的具体接口,下面我们分析下具体实现:
- allowRequest是返回能不能执行请求的方法:
@Override
public boolean allowRequest() {
//熔断器开关强制打开,则降级处理
if (properties.circuitBreakerForceOpen().get()) {
return false;
}
//如果熔断器强制关闭,则正常执行
if (properties.circuitBreakerForceClosed().get()) {
isOpen();
return true;
}
//判断熔断器是否打开,或者熔断器是否允许一个时间窗口进行单次访问
return !isOpen() || allowSingleTest();
}
- isOpen方法是判断熔断器是否已经处于打开状态
@Override
public boolean isOpen() {
//如果熔断器已打开,立刻返回true
if (circuitOpen.get()) {
return true;
}
//如果当前开关处于闭合状态,根据采样判断当前是否需要熔断
HealthCounts health = metrics.getHealthCounts();
//如果当前采样的总请求数小于circuitBreakerRequestVolumeThreshold阈值,不进行熔断
if (health.getTotalRequests() < properties.circuitBreakerRequestVolumeThreshold().get()) {
return false;
}
//如果采样的错误率小于circuitBreakerErrorThresholdPercentage阈值,则不进行熔断
if (health.getErrorPercentage() < properties.circuitBreakerErrorThresholdPercentage().get()) {
return false;
} else {
//失败率超过阈值,进行熔断
if (circuitOpen.compareAndSet(false, true)) {
circuitOpenedOrLastTestedTime.set(System.currentTimeMillis());
return true;
} else {
return false;
}
}
}
}
- allowSingleTest是判断在一个时间窗口内进行单次访问测试
public boolean allowSingleTest() {
//熔断器打开后的最后一次测试时间
long timeCircuitOpenedOrWasLastTested = circuitOpenedOrLastTestedTime.get();
//熔断器处于打开状态,允许在一个circuitBreakerSleepWindowInMilliseconds时间窗口内,进行访问测试
if (circuitOpen.get() && System.currentTimeMillis() > timeCircuitOpenedOrWasLastTested + properties.circuitBreakerSleepWindowInMilliseconds().get()) {
if (circuitOpenedOrLastTestedTime.compareAndSet(timeCircuitOpenedOrWasLastTested, System.currentTimeMillis())) {
return true;
}
}
return false;
}
- markSuccess是访问成功后,熔断器的关闭操作
public void markSuccess() {
if (circuitOpen.get()) {
//重置采样数据,如错误次数,最后测试时间等
metrics.resetCounter();
//熔断器设置成关闭
circuitOpen.set(false);
}
}
总结
熔断器是微服务的弹性化的其中一步,它能很好的保护我们的应用程序,除了熔断器外,客户端弹性模式还有后备模式、客户端负载均衡、后备模式和舱壁模式。
参考:
https://www.cnblogs.com/shanyou/p/CircuitBreaker.html
https://segmentfault.com/a/1190000005988895