APM-Skywalking UI使用全攻略

0. 概述

功能简介

Skywalking(简称SW)是分布式系统的应用程序性能监视(APM)工具，专为微服务、云原生和容器架构而设计，提供分布式追踪、服务网格遥测分析、度量聚合和可视化一体化解决方案。通过探针自动收集所需的指标，并进行分布式追踪，具有无代码嵌入，支持众多中间件，agent种类全面，性能消耗低等优点。

本文基于7.0版本，为读者提供UI使用全攻略，帮助读者快速入门指标监控。

指标盘界面通识

image-20200602144210229

最上方为功能区，用来切换SW不同的功能，具体功能将在后续篇章介绍；
功能区下方为指标对象，SW的监控对象分为服务、端点和实例三种；
右下角为时间区，用来设定统计指标的时间域（所有的指标展示都依赖与这个时间范围）。点击右上“自动”按钮可以开启自动刷新模式；
其余空间为指标盘展示区，用来展示各种指标信息。

这里着重介绍下 SkyWalking 中最重要的三个概念：

服务(Service) ：表示对请求提供相同行为的一系列或一组工作负载。在使用 Agent 或 SDK 的时候，你可以定义服务的名字。如果不定义的话，SkyWalking 将会使用应用名称上定义的名字，为了和告警服务联动，这里推荐大家配置成应用中心中的应用名。

这里，我们可以看到应用的服务为 "is-travel-business"，这是在agent 环境变量 SW_AGENT_NAME 中所定义的。
端点(Endpoint) ：对于特定服务所接收的请求路径, 如 HTTP 的 URI 路径和 gRPC 服务的类名 + 方法签名。

这里，我们可以看到 Spring Boot 应用的一个端点，为 API 接口 /api/banner/{id}。
服务实例(Service Instance) ：上述的一组工作负载中的每一个工作负载称为一个实例。就像 Kubernetes 中的 pods 一样, 服务实例未必就是操作系统上的一个进程。但当你在使用 Agent 的时候, 一个服务实例实际就是操作系统上的一个真实进程。

这里，我们可以看到 Spring Boot 应用的实例为 {进程UUID}@{hostname}，由 Agent 自动生成。

SW所有的指标信息都是围绕三者展开的。

1. 指标仪表盘

1.1 服务指标

点击仪表盘，选择要查询的应用，如“is-file-store”, 再切换仪表盘为“Service”模式，即可查询对应服务的指标

image-20200602152707864

服务主要指标包括：

ApdexScore ：性能指数，Apdex(Application Performance Index)是一个国际通用标准，Apdex 是用户对应用性能满意度的量化值。它提供了一个统一的测量和报告用户体验的方法，把最终用户的体验和应用性能作为一个完整的指标进行统一度量，其中最高为1最低为0；
ResponseTime：响应时间，即在选定时间内，服务所有请求的平均响应时间(ms)；
Throughput: 吞吐量，即在选定时间内，每分钟服务响应的请求量(cpm)
SLA: service level agreement，服务等级协议，SW中特指每分钟内响应成功请求的占比。

大盘中会列出以上指标的当前的平均值，和历史走势。

服务慢端点 Service Slow Endpoint

服务指标仪表盘会列举出当前服务响应时间最大的端点Top5，如果有端点的响应时间过高，则需要进一步关注其指标（点击可以复制端点名称）。

image-20200602154937031

运行中的实例 Running ServiceInstance

该服务目前所有实例的吞吐量情况，通过此可以推断出实例之间的负载情况。如果发现某个实例吞吐量较低，就需要查询实例指标（如查询该实例是不是发生了GC，或则CPU利用率过高）

image-20200602172630012

1.2 端点指标

如果发现有端点的响应时间过高，可以进一步查询该端点的指标信息。和服务指标类似，端点指标也包括吞吐量、SLA、响应时间等指标，这里不再赘述。

端点仪表盘会有如下特有信息：

Dependency Map: 依赖关系图，代表哪些服务在依赖（调用）该端点，如果是前端直接调用，会显示为用户（User）依赖中；
Slow Traces: 即慢调用请求记录，SW会自动列出当前时间段内端点最慢的调用记录和TraceID，通过这个ID可以在追踪功能找到具体的调用链信息，便于定位。