一、前言
看过了上一篇文章之后,我们应该掌握了 Hystrix 基本的使用方法。我们应该可以通过应用 Hystrix,保护我们的应用免受延迟故障的危害。但我们只是大致配置了 HystrixCommand
,设置了相对宽松的线程池和超时时间等参数。这样虽然可以快速应用 Hystrix,但系统的可用性还是可以通过配置调优进一步的提高。那对 Hystrix 配置的第一步就是获取 Hystrix 的运行数据,这就用到了 Hystrix 的监控功能。所以,本文将向大家介绍一下 Hystrix 自带的 Dashboard 功能的使用和扩展。
二、内置的监控:Hystrix Dashboard
如上所述,Hystrix 提供了一个 Dashboard 功能,用于提供对 Hystrix 相关运行数据的监控和展示。
▼ 正常的 HystrixCommand 的监控图
▼ 发生熔断时 HystrixCommand 的监控图
每个 Command 的监控图中都有 Host 和 Cluster 两个 TPS 数据。如果是单机的 Dashboard,那这两个数值是相同的,集群 Dashboard 则会有不同的显示。
集群的 Dashboard 可以自己实现,也可以利用 Netflix Turbine 快速搭建。原理是聚合收集 Hystrix Metrics Stream 的数据实现的。所以,实现监控的基础是开启 Hystrix Metrics Stream 功能。
监控信息详解
▼ 一个 HystrixCommand 完整的监控信息
- 绿色计数: 表示成功的请求数
- 蓝色计数: 表示断路器打开后,直接被短路的请求数
- 黄色计数: 表示请求超时数
- 紫色计数: 表示因为线程池满而被拒绝的请求数
- 红色计数: 表示因为异常而导致失败的请求数
- 灰色百分比: 表示的是10秒内的错误率统计
- Hosts: 应用个数
- Median: Command 的中位数时间
- Mean: Command 的平均时间
- 90th/99th/99.5th: P90、P99、P99.5 时间
- Rolling 10 second counters: 说明一下计数都是在一个10秒的滚动窗口内统计的
- with 1 second granularity: 这个滚动窗口是以1秒为粒度进行统计的
所有技术和百分比的统计窗口都是10秒(默认值)
配置 Hystrix Metrics Stream
上一节展示的各种监控数据均来自被监控服务上 Hystrix Metrics Stream 的输出,接下来介绍如何开启 Hystrix Metrics Stream。
原生方式
要开启 Hystrix Metrics Stream,我们需要做如下工作:
配置 Maven
<dependency>
<groupId>com.netflix.hystrix</groupId>
<artifactId>hystrix-metrics-event-stream</artifactId>
<version>${hystrix.version}</version>
</dependency>
配置 Servlet
<servlet>
<description></description>
<display-name>HystrixMetricsStreamServlet</display-name>
<servlet-name>HystrixMetricsStreamServlet</servlet-name>
<servlet-class>
com.netflix.hystrix.contrib.metrics.eventstream.HystrixMetricsStreamServlet
</servlet-class>
</servlet>
<servlet-mapping>
<servlet-name>HystrixMetricsStreamServlet</servlet-name>
<url-pattern>/hystrix.stream</url-pattern>
</servlet-mapping>
在配置完成之后,通过浏览器打开 http://server:port/hystrix.stream 就能看到如下的数据:
ping:
data: {"type":"HystrixCommand","name":"AuthenticationCommand","group":"AuthenticationCommandGroup","currentTime":1503645428876,"isCircuitBreakerOpen":false,"errorPercentage":0,"errorCount":0,"requestCount":25,"rollingCountBadRequests":0,"rollingCountCollapsedRequests":0,"rollingCountEmit":0,"rollingCountExceptionsThrown":0,"rollingCountFailure":0,"rollingCountFallbackEmit":0,"rollingCountFallbackFailure":0,"rollingCountFallbackMissing":0,"rollingCountFallbackRejection":0,"rollingCountFallbackSuccess":0,"rollingCountResponsesFromCache":0,"rollingCountSemaphoreRejected":0,"rollingCountShortCircuited":0,"rollingCountSuccess":27,"rollingCountThreadPoolRejected":0,"rollingCountTimeout":0,"currentConcurrentExecutionCount":0,"rollingMaxConcurrentExecutionCount":1,"latencyExecute_mean":6,"latencyExecute":{"0":4,"25":5,"50":6,"75":7,"90":8,"95":9,"99":26,"99.5":26,"100":26},"latencyTotal_mean":6,"latencyTotal":{"0":4,"25":5,"50":6,"75":7,"90":8,"95":9,"99":26,"99.5":26,"100":26},"propertyValue_circuitBreakerRequestVolumeThreshold":20,"propertyValue_circuitBreakerSleepWindowInMilliseconds":5000,"propertyValue_circuitBreakerErrorThresholdPercentage":20,"propertyValue_circuitBreakerForceOpen":false,"propertyValue_circuitBreakerForceClosed":false,"propertyValue_circuitBreakerEnabled":true,"propertyValue_executionIsolationStrategy":"THREAD","propertyValue_executionIsolationThreadTimeoutInMilliseconds":200,"propertyValue_executionTimeoutInMilliseconds":200,"propertyValue_executionIsolationThreadInterruptOnTimeout":true,"propertyValue_executionIsolationThreadPoolKeyOverride":null,"propertyValue_executionIsolationSemaphoreMaxConcurrentRequests":10,"propertyValue_fallbackIsolationSemaphoreMaxConcurrentRequests":10,"propertyValue_metricsRollingStatisticalWindowInMilliseconds":10000,"propertyValue_requestCacheEnabled":false,"propertyValue_requestLogEnabled":false,"reportingHosts":1,"threadPool":"PassportCommandThreadPool"}
这些就是 Hystrix 相关的监控数据流,包括了接口响应时间、TPS、熔断等相关的数据。
Spring Boot
如果使用了 Spring Boot,我们启用 Stream 的方法略有不同,但同样简单:
配置 Maven
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-actuator</artifactId>
</dependency>
配置 Spring Boot
@EnableHystrix
@SpringBootApplication
public class HystrixWorkshopApplication {
public static void main(String[] args) {
SpringApplication.run(HystrixWorkshopApplication.class, args);
}
}
运行 Hystrix Dashboard 服务
但是,我们肯定不能直接通过这样的方式监控 Hystrix。所以,Hystrix 提供了一个 Dashboard 应用。Dashboard 是一个单独的应用,我们可以独立部署,另外 Spring Cloud 也提供了一个注解,开启 Dashboard 功能。Dashboard 的基本的安装配置功能不在这里描述了。
▼ Hystrix Dashboard 的界面如下图所示
在第一个文本框填入 Hystrix Stream 的地址即可看到本文开头的界面。
如果需要监控整个 Hystrix 集群,就需要使用 Turbine 应用。Turbine 也是 Netflix 开源的一个服务。
Hystrix Metrics 的优缺点
优点:
统计粒度小:时间粒度和监控单元粒度。可以帮助我们发现粗粒度监控时不容易发现的问题。
缺点:
数据没有持久化,无法查看历史数据
三、与自有监控和报警系统的集成
监控
对于多数公司来说,使用 Hystrix Stream 和 Turbine 存在一个明显的不足,那就是无法查看历史的监控数据。
这个功能还是很重要的,因为在使用 Hystrix,刚开始,超时时间、线程池等参数配置的都比较随意。后续我们需要进行配置调整,依据就来自 Hystrix Dashboard 上的数据。但如果无法看到历史的数据,那就很不方便了。
目前,Hystrix 并没有提供任何机制用于将运行数据上传至第三方监控系统的机制,但我们可以参考 HystrixMetricsStreamServlet
的实现方式。
HystrixMetricsStreamServlet
是通过轮询 HystrixCommandMetrics
、HystrixThreadPoolMetrics
和 HystrixCollapserMetrics
中的数据实现监控的。因此,我们也可以采用类似的方式,轮询这三个类中的数据,然后将这些数据上传到第三方监控系统。上传之后,在通过相应监控系统的持久化功能,从而实现对监控数据的保存。
private HystrixDashboardStream(int delayInMs) {
this.delayInMs = delayInMs;
this.singleSource = Observable.interval(delayInMs, TimeUnit.MILLISECONDS)
.map(new Func1<Long, DashboardData>() {
@Override
public DashboardData call(Long timestamp) {
return new DashboardData(
HystrixCommandMetrics.getInstances(),
HystrixThreadPoolMetrics.getInstances(),
HystrixCollapserMetrics.getInstances()
);
}
})
.doOnSubscribe(new Action0() {
@Override
public void call() {
isSourceCurrentlySubscribed.set(true);
}
})
.doOnUnsubscribe(new Action0() {
@Override
public void call() {
isSourceCurrentlySubscribed.set(false);
}
})
.share()
.onBackpressureDrop();
}
报警
注:这一段内容和 Hystrix 本身的使用没有直接关系,而是和 Hystrix 相关的微服务治理相关的内容。但建议负责技术、架构,以及负责基础组件和服务研发的同学阅读
在有了监控数据之后,报警功能也是水到渠成,所以这里不谈如何实现基于 Hystrix 监控数据的报警功能。这里我们讨论一下我们是否需要基于 Hystrix 监控数据的报警功能?如果需要,都需要针对哪些指标添加报警?
之所以讨论这个问题,是因为有很多全链路监控解决方案,例如 Spring Cloud Sleuth、Pinpoint 等,都支持对 Hystrix 的监控。所以,监控报警功能并不依赖于 Hystrix 自带的监控数据输出。所以,如果只需要基本的监控报警功能,完全是不需要 Hystrix Metrics 和 Dashboard 功能的。
但 Hystrix 相关的监控数据不同于其它技术,除了超时和错误的监控,还有其它很多细粒度的监控数据。例如,熔断次数、线程池拒绝次数等等。
对于这些细粒度的监控数据,我认为不应该将它们同超时和错误监控等同看待。前者更多的是用于配置调优,后者则主要是一种常规的监控方式。如果我们将 Hystrix Metrics 所提供的所有数据都纳入监控,不仅监控系统,而且,更重要的是,技术人员可能会不堪重sao负rao。过多的监控有时会起到相反的作用,即让技术人员忽视监控。
我认为 Hystrix 相关的报警的一个原则是,报警还应该局限于主要的指标(请求时间、异常)。对于 Hystrix 特有的、细粒度的运行数据,我们需要做到有据可查。以方便开发人员调优