Prometheus 监控技术与实践
监控分类
- Logging 用于记录离散的事件。例如,应用程序的调试信息或错误信息。它是我们诊断问题的依据。比如我们说的ELK就是基于Logging。
- Metrics 用于记录可聚合的数据。例如,1、队列的当前深度可被定义为一个度量值,在元素入队或出队时被更新;HTTP 请求个数可被定义为一个计数器,新请求到来时进行累。2、列如获取当前CPU或者内存的值。 prometheus专注于Metrics领域。
- Tracing - 用于记录请求范围内的信息。例如,一次远程方法调用的执行过程和耗时。它是我们排查系统性能问题的利器。最常用的有Skywalking,ping-point,zipkin。
Prometheus介绍
简介
Prometheus(中文名:普罗米修斯)是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB). Prometheus使用Go语言开发, 是Google BorgMon监控系统的开源版本。
Prometheus的基本原理是通过HTTP协议周期性抓取被监控组件的状态, 任意组件只要提供对应的HTTP接口就可以接入监控. 不需要任何SDK或者其他的集成过程。输出被监控组件信息的HTTP接口被叫做exporter,目前开发常用的组件大部分都有exporter可以直接使用, 比如Nginx、MySQL、Linux系统信息、Mongo、ES等
系统生态
Prometheus 可以从配置或者用服务发现,去调用各个应用的 metrics 接口,来采集数据,然后存储在硬盘中,而如果是基础应用比如数据库,负载均衡器等,可以在相关的服务中安装 Exporters 来提供 metrics 接口供 Prometheus 拉取。
采集到的数据有两个去向,一个是报警,另一个是可视化。
Prometheus有着非常高效的时间序列数据存储方法,每个采样数据仅仅占用3.5byte左右空间,上百万条时间序列,30秒间隔,保留60天,大概花了200多G(引用官方PPT)。
Prometheus内部主要分为三大块,Retrieval是负责定时去暴露的目标页面上去抓取采样指标数据,Storage是负责将采样数据写磁盘,PromQL是Prometheus提供的查询语言模块。
Metrics
格式
<metric name>{<label name>=<label value>, ...}
- metric name: [a-zA-Z_:][a-zA-Z0-9_:]*
- label name: [a-zA-Z0-9_]*
- label value: .* (即不限制)
例如通过NodeExporter的metrics地址暴露指标内容:
node_cpu_seconds_total{cpu="0",mode="idle"} 927490.95
node_cpu_seconds_total{cpu="0",mode="iowait"} 27.74
样本
在时间序列中的每一个点称为一个样本(sample),样本由以下三部分组成:
- 指标(metric):指标名称和描述当前样本特征的 labelsets;
- 时间戳(timestamp):一个精确到毫秒的时间戳;
- 样本值(value):一个 folat64 的浮点型数据表示当前样本的值。
数据类型
Prometheus定义了4中不同的指标类型(metric type):Counter(计数器)、Gauge(仪表盘)、Histogram(直方图)、Summary(摘要)。
在NodeExporter返回的样本数据中,其注释中也包含了该样本的类型。例如:
# HELP node_cpu_seconds_total Seconds the cpus spent in each mode.
# TYPE node_cpu_seconds_total counter
node_cpu_seconds_total{cpu="0",mode="idle"} 927490.95
node_cpu_seconds_total{cpu="0",mode="iowait"} 27.74...
-
Counter
统计的数据是递增的,不能使用计数器来统计可能减小的指标,计数器统计的指标是累计增加的,如http请求的总数,出现的错误总数,总的处理时间,api请求数等
例如:
第一次抓取 http_response_total{method="GET",endpoint="/api/tracks"} 100 第二次抓取 http_response_total{method="GET",endpoint="/api/tracks"} 150
-
Gauge
量规是一种度量标准,代表可以任意上下波动的单个数值,用于统计cpu使用率,内存使用率,磁盘使用率,温度等指标,还可以统计上升和下降的计数。如并发请求数等。
例如:
第1次抓取 memory_usage_bytes{host="master-01"} 100 第2秒抓取 memory_usage_bytes{host="master-01"} 30 第3次抓取 memory_usage_bytes{host="master-01"} 50 第4次抓取 memory_usage_bytes{host="master-01"} 80
-
Histogram
统计在一定的时间范围内数据的分布情况。如请求的持续/延长时间,请求的响应大小等,还提供度量指标的总和,数据以直方图显示。Histogram由_bucket{le=""},_bucket{le="+Inf"}, _sum,_count 组成
如:
apiserver_request_latencies_sum
apiserver_request_latencies_count
apiserver_request_latencies_bucket -
Summary
和Histogram直方图类似,主要用于表示一段时间内数据采样结果(通常是请求持续时间或响应大小之类的东西),还可以计算度量值的总和和度量值的分位数以及在一定时间范围内的分位数,由{quantile="<φ>"},_sum,_count 组成
PromSQL
-
运算
乘:*
除:/
加:+
减:- -
函数
sum() 函数:求出找到所有value的值
irate() 函数:统计平均速率
by (标签名) 相当于关系型数据库中的group by函数
min:最小值
count: 元素个数
avg: 平均值
-
范围匹配
5分钟之内
[5m] -
案例
1、获取cpu使用率 :100-(avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by(instance) *100)
2、获取内存使用率:100-(node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes)/node_memory_MemTotal_bytes*100
下载安装
- 官方下载安装
# mac下载地址 https://prometheus.io/download/
# 解压
tar -zxvf prometheus-2.26.0.darwin-amd64.tar.gz
#启动
./prometheus --config.file=/usr/local/prometheus/prometheus.yml
-
docker 方式快速安装
docker run -d --restart=always \ -p 9090:9090 \ -v ~/prometheus.yml:/etc/prometheus/prometheus.yml \ prom/prometheus
配置文件: prometheus.yml
# my global config
global:
scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
# scrape_timeout is set to the global default (10s).
# Alertmanager configuration
alerting:
alertmanagers:
- static_configs:
- targets:
# - alertmanager:9093
# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
# - "first_rules.yml"
# - "second_rules.yml"
# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
# The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
- job_name: 'prometheus'
# metrics_path defaults to '/metrics'
# scheme defaults to 'http'.
static_configs:
- targets: ['localhost:9090']
- job_name: 'erp-monitord'
metrics_path: '/prometheus'
# scheme defaults to 'http'.
static_configs:
- targets: ['localhost:50258']
Target
Graph
Springboot 集成
Springboot1.5集成
maven 依赖
<dependency>
<groupId>io.micrometer</groupId>
<artifactId>micrometer-registry-prometheus</artifactId>
<version>1.6.1</version>
</dependency>
<dependency>
<groupId>io.micrometer</groupId>
<artifactId>micrometer-spring-legacy</artifactId>
<version>1.3.15</version>
</dependency>
-
配置访问地址
#endpoints.prometheus.path=${spring.application.name}/prometheus management.metrics.tags.application = ${spring.application.name}
-
启动springboot 服务查看指标 http://xxxx:port/prometheus
Springboot2.x 版本集成
-
maven 依赖
<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-actuator</artifactId> </dependency> <dependency> <groupId>io.micrometer</groupId> <artifactId>micrometer-core</artifactId> </dependency> <dependency> <groupId>io.micrometer</groupId> <artifactId>micrometer-registry-prometheus</artifactId> </dependency>
-
配置
#Prometheus springboot监控配置 management: endpoints: web: exposure: include: 'prometheus' # 暴露/actuator/prometheus metrics: tags: application: ${spring.application.name} # 暴露的数据中添加application label
自定义业务指标案例
- 代码配置
import com.slightech.marvin.api.visitor.app.metrics.VisitorMetrics;
import com.slightech.marvin.api.visitor.app.service.VisitorStatisticsService;
import io.micrometer.core.instrument.MeterRegistry;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.boot.actuate.autoconfigure.metrics.MeterRegistryCustomizer;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
/**
* @author wanglu
*/
@Configuration
public class MeterConfig {
@Value("${spring.application.name}")
private String applicationName;
@Autowired
private VisitorStatisticsService visitorStatisticsService;
@Bean
public MeterRegistryCustomizer<MeterRegistry> configurer() {
return (registry) -> registry.config().commonTags("application", applicationName);
}
@Bean
public VisitorMetrics visitorMetrics() {
return new VisitorMetrics(visitorStatisticsService);
}
}
-
自定义指标处理类实现MeterBinder 接口
import io.micrometer.core.instrument.Gauge; import io.micrometer.core.instrument.MeterRegistry; import io.micrometer.core.instrument.binder.MeterBinder; /** * @author wanglu * @date 2019/11/08 */ public class VisitorMetrics implements MeterBinder { private static final String METRICS_NAME_SPACE = "visitor"; private VisitorStatisticsService visitorStatisticsService; public VisitorMetrics(VisitorStatisticsService visitorStatisticsService) { this.visitorStatisticsService = visitorStatisticsService; } @Override public void bindTo(MeterRegistry meterRegistry) { //公寓获取二维码次数-当天 //visitor_today_apartment_get_qr_code_count{"application"="xxx", "option"="apartment get qr code"} Gauge.builder(METRICS_NAME_SPACE + "_today_apartment_get_qr_code_count", visitorStatisticsService, VisitorStatisticsService::getTodayApartmentGetQrCodeCount) .description("today apartment get qr code count") .tag("option", "apartment get qr code") .register(meterRegistry); //visitor_today_apartment_get_qr_code_count{"application"="xxx", "option"="employee get qr code"} //员工获取二维码次数-当天 Gauge.builder(METRICS_NAME_SPACE + "_today_employee_get_qr_code_count", visitorStatisticsService, VisitorStatisticsService::getTodayEmployeeGetQrCodeCount) .description("today employee get qr code count") .tag("option", "employee get qr code") .register(meterRegistry); } }
-
埋点服务计数
import org.springframework.beans.factory.annotation.Autowired; import org.springframework.data.redis.core.RedisTemplate; import org.springframework.scheduling.annotation.Async; import org.springframework.stereotype.Service; import java.util.Calendar; import java.util.Date; import java.util.concurrent.TimeUnit; /** * 数据统计 * * @author laijianzhen * @date 2019/11/08 */ @Service public class VisitorStatisticsService { /** * 公寓获取二维码次数-当天 */ private static final String COUNT_TODAY_APARTMENT_GET_QR_CODE_REDIS_KEY = "Visitor:Statistics:CountTodayApartmentGetQrCode"; /** * 员工获取二维码次数-当天 */ private static final String COUNT_TODAY_EMPLOYEE_GET_QR_CODE_REDIS_KEY = "Visitor:Statistics:CountTodayEmployeeGetQrCode"; @Autowired private RedisTemplate<String, Object> redisTemplate; public int getTodayApartmentGetQrCodeCount() { return getCountFromRedis(COUNT_TODAY_APARTMENT_GET_QR_CODE_REDIS_KEY); } public int getTodayEmployeeGetQrCodeCount() { return getCountFromRedis(COUNT_TODAY_EMPLOYEE_GET_QR_CODE_REDIS_KEY); } @Async public void countTodayApartmentGetQrCode() { increaseCount(COUNT_TODAY_APARTMENT_GET_QR_CODE_REDIS_KEY); } @Async public void countTodayEmployeeGetQrCode() { increaseCount(COUNT_TODAY_EMPLOYEE_GET_QR_CODE_REDIS_KEY); } private int getCountFromRedis(String key) { Object object = redisTemplate.opsForValue().get(key); if (object == null) { return 0; } return Integer.parseInt(String.valueOf(object)); } private void increaseCount(String redisKey) { Object object = redisTemplate.opsForValue().get(redisKey); if (object == null) { redisTemplate.opsForValue().set(redisKey, String.valueOf(1), getTodayLeftSeconds(), TimeUnit.SECONDS); return; } redisTemplate.opsForValue().increment(redisKey, 1); } private long getTodayLeftSeconds() { Date nowDate = new Date(); Calendar midnight = Calendar.getInstance(); midnight.setTime(nowDate); midnight.add(Calendar.DAY_OF_MONTH, 1); midnight.set(Calendar.HOUR_OF_DAY, 0); midnight.set(Calendar.MINUTE, 0); midnight.set(Calendar.SECOND, 0); midnight.set(Calendar.MILLISECOND, 0); return (midnight.getTime().getTime() - nowDate.getTime()) / 1000; } }
Grafana 集成
下载安装
https://grafana.com/grafana/download?pg=get&plcmt=selfmanaged-box1-cta1&platform=mac
#下载解压
curl -O https://dl.grafana.com/oss/release/grafana-7.5.4.darwin-amd64.tar.gz
tar -zxvf grafana-7.5.4.darwin-amd64.tar.gz
启动
#启动
./bin/grafana-server web
#访问
http://localhost:3000
默认账号密码 admin admin
数据源配置
监控仪表盘
-
导入常用别人已配置的图表信息,例如:springboot 用了micrometer 库,从granfna官网可以找到该库已提供的的JVM监控图表
直接找到 id 导入即可。找找地址:https://grafana.com/grafana/dashboards
搜索
查看详情
导入
JVM 监控仪表盘:
-
自定义制作
报警
基于AlertManager报警
安装
- 下载二进制安装
# mac下载地址 https://prometheus.io/download/
# 解压
tar -zxvf prometheus-2.26.0.darwin-amd64.tar.gz
#启动 默认配置项为alertmanager.yml
./alertmanager --config.file=alertmanager.yml
-
docker 安装
docker run --name alertmanager -d -p 127.0.0.1:9093:9093 quay.io/prometheus/alertmanager
配置
-
alertmanager.yml 配置
# 全局配置项 global: resolve_timeout: 5m #处理超时时间,默认为5min smtp_smarthost: 'smtp.sina.com:25' # 邮箱smtp服务器代理 smtp_from: '******@sina.com' # 发送邮箱名称 smtp_auth_username: '******@sina.com' # 邮箱名称 smtp_auth_password: '******' # 邮箱密码或授权码 wechat_api_url: 'https://qyapi.weixin.qq.com/cgi-bin/' # 企业微信地址 # 定义模板信心templates: - 'template/*.tmpl' # 定义路由树信息 route: group_by: ['alertname'] # 报警分组依据 group_wait: 10s # 最初即第一次等待多久时间发送一组警报的通知 group_interval: 10s # 在发送新警报前的等待时间 repeat_interval: 1m # 发送重复警报的周期 对于email配置中,此项不可以设置过低,否则将会由于邮件发送太多频繁,被smtp服务器拒绝 receiver: 'email' # 发送警报的接收者的名称,以下receivers name的名称 # 定义警报接收者信息 receivers: - name: 'email' # 警报 email_configs: # 邮箱配置 - to: '******@163.com' # 接收警报的email配置 html: '{{ template "test.html" . }}' # 设定邮箱的内容模板 headers: { Subject: "[WARN] 报警邮件"} # 接收邮件的标题 webhook_configs: # webhook配置 - url: 'http://127.0.0.1:5001' send_resolved: true wechat_configs: # 企业微信报警配置 - send_resolved: true to_party: '1' # 接收组的id agent_id: '1000002' # (企业微信-->自定应用-->AgentId) corp_id: '******' # 企业信息(我的企业-->CorpId[在底部]) api_secret: '******' # 企业微信(企业微信-->自定应用-->Secret) message: '{{ template "test_wechat.html" . }}' # 发送消息模板的设定# 一个inhibition规则是在与另一组匹配器匹配的警报存在的条件下,使匹配一组匹配器的警报失效的规则。两个警报必须具有一组相同的标签。 inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'dev', 'instance']
启用AlertManager 报警 prometheus.yml 配置
# my global config
global:
scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
# scrape_timeout is set to the global default (10s).
# Alertmanager configuration
alerting:
alertmanagers:
- static_configs:
- targets: ["localhost:9093"]
# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
- "first_rules.yml"
- "second_rules.yml"
-
Rule 定义
groups: - name: <string> rules: - alert: <string> expr: <string> for: [ <duration> | default 0 ] labels: [ <lable_name>: <label_value> ] annotations: [ <lable_name>: <tmpl_string> ]
参数 描述 - name: <string> 警报规则组的名称 - alert: <string> 警报规则的名称 expr: <string 使用PromQL表达式完成的警报触发条件,用于计算是否有满足触发条件 <lable_name>: <label_value> 自定义标签,允许自行定义标签附加在警报上,比如 high
warning
annotations: <lable_name>: <tmpl_string> 用来设置有关警报的一组描述信息,其中包括自定义的标签,以及expr计算后的值。
-
案例
groups: - name: operations rules: - alert: node-down expr: up{env="operations"} != 1 for: 5m labels: status: High team: operations annotations: description: "Environment: {{ $labels.env }} Instance: {{ $labels.instance }} is Down ! ! !" value: '{{ $value }}' summary: "The host node was down 20 minutes ago"
查看配置报警配置
-
告警展示
基于Granfana 报警
-
创建Channel
-
创建规则
-
告警效果展示Email