Prometheus 监控技术与实践

监控分类

Logging 用于记录离散的事件。例如，应用程序的调试信息或错误信息。它是我们诊断问题的依据。比如我们说的ELK就是基于Logging。
Metrics 用于记录可聚合的数据。例如，1、队列的当前深度可被定义为一个度量值，在元素入队或出队时被更新；HTTP 请求个数可被定义为一个计数器，新请求到来时进行累。2、列如获取当前CPU或者内存的值。 prometheus专注于Metrics领域。
Tracing - 用于记录请求范围内的信息。例如，一次远程方法调用的执行过程和耗时。它是我们排查系统性能问题的利器。最常用的有Skywalking，ping-point，zipkin。

Prometheus介绍

简介

Prometheus(中文名:普罗米修斯)是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB). Prometheus使用Go语言开发, 是Google BorgMon监控系统的开源版本。

Prometheus的基本原理是通过HTTP协议周期性抓取被监控组件的状态, 任意组件只要提供对应的HTTP接口就可以接入监控. 不需要任何SDK或者其他的集成过程。输出被监控组件信息的HTTP接口被叫做exporter，目前开发常用的组件大部分都有exporter可以直接使用, 比如Nginx、MySQL、Linux系统信息、Mongo、ES等

官网地址:https://prometheus.io/

系统生态

image-20210619121332849

Prometheus 可以从配置或者用服务发现，去调用各个应用的 metrics 接口，来采集数据，然后存储在硬盘中，而如果是基础应用比如数据库，负载均衡器等，可以在相关的服务中安装 Exporters 来提供 metrics 接口供 Prometheus 拉取。

采集到的数据有两个去向，一个是报警，另一个是可视化。

Prometheus有着非常高效的时间序列数据存储方法，每个采样数据仅仅占用3.5byte左右空间，上百万条时间序列，30秒间隔，保留60天，大概花了200多G（引用官方PPT）。

Prometheus内部主要分为三大块，Retrieval是负责定时去暴露的目标页面上去抓取采样指标数据，Storage是负责将采样数据写磁盘，PromQL是Prometheus提供的查询语言模块。

Metrics

格式

<metric name>{<label name>=<label value>, ...}

metric name: [a-zA-Z_:][a-zA-Z0-9_:]*
label name: [a-zA-Z0-9_]*
label value: .* (即不限制)

例如通过NodeExporter的metrics地址暴露指标内容:

node_cpu_seconds_total{cpu="0",mode="idle"} 927490.95
node_cpu_seconds_total{cpu="0",mode="iowait"} 27.74

样本

在时间序列中的每一个点称为一个样本（sample），样本由以下三部分组成：

指标（metric）：指标名称和描述当前样本特征的 labelsets；
时间戳（timestamp）：一个精确到毫秒的时间戳；
样本值（value）：一个 folat64 的浮点型数据表示当前样本的值。

数据类型

Prometheus定义了4中不同的指标类型(metric type)：Counter（计数器）、Gauge（仪表盘）、Histogram（直方图）、Summary（摘要）。

在NodeExporter返回的样本数据中，其注释中也包含了该样本的类型。例如：

# HELP node_cpu_seconds_total Seconds the cpus spent in each mode.
# TYPE node_cpu_seconds_total counter
node_cpu_seconds_total{cpu="0",mode="idle"} 927490.95
node_cpu_seconds_total{cpu="0",mode="iowait"} 27.74...

Counter

统计的数据是递增的，不能使用计数器来统计可能减小的指标，计数器统计的指标是累计增加的，如http请求的总数，出现的错误总数，总的处理时间，api请求数等

例如:
```
第一次抓取  http_response_total{method="GET",endpoint="/api/tracks"} 100
第二次抓取 http_response_total{method="GET",endpoint="/api/tracks"} 150
```

Gauge

量规是一种度量标准，代表可以任意上下波动的单个数值，用于统计cpu使用率，内存使用率，磁盘使用率，温度等指标，还可以统计上升和下降的计数。如并发请求数等。

例如:
```
 第1次抓取 memory_usage_bytes{host="master-01"} 100 
 第2秒抓取 memory_usage_bytes{host="master-01"} 30  
 第3次抓取 memory_usage_bytes{host="master-01"} 50  
 第4次抓取 memory_usage_bytes{host="master-01"} 80
```

Histogram

统计在一定的时间范围内数据的分布情况。如请求的持续/延长时间，请求的响应大小等，还提供度量指标的总和，数据以直方图显示。Histogram由_bucket{le=""}，_bucket{le="+Inf"}, _sum，_count 组成
如：
apiserver_request_latencies_sum
apiserver_request_latencies_count
apiserver_request_latencies_bucket

image-20210621110126391
Summary

和Histogram直方图类似，主要用于表示一段时间内数据采样结果(通常是请求持续时间或响应大小之类的东西)，还可以计算度量值的总和和度量值的分位数以及在一定时间范围内的分位数，由{quantile="<φ>"}，_sum，_count 组成

PromSQL

运算

乘：*
除：/
加：+
减：-
函数

sum() 函数：求出找到所有value的值

irate() 函数：统计平均速率

by (标签名) 相当于关系型数据库中的group by函数

min：最小值

count: 元素个数

avg: 平均值
范围匹配

5分钟之内
[5m]
案例

1、获取cpu使用率 :100-(avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by(instance) *100)

image-20210619132146337

2、获取内存使用率:100-(node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes)/node_memory_MemTotal_bytes*100

下载安装

官方下载安装

# mac下载地址 https://prometheus.io/download/

# 解压
tar -zxvf prometheus-2.26.0.darwin-amd64.tar.gz
#启动
./prometheus --config.file=/usr/local/prometheus/prometheus.yml

docker 方式快速安装

docker run -d --restart=always \
-p 9090:9090 \
-v ~/prometheus.yml:/etc/prometheus/prometheus.yml \
prom/prometheus

配置文件: prometheus.yml

# my global config
global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).

# Alertmanager configuration
alerting:
  alertmanagers:
  - static_configs:
    - targets:
      # - alertmanager:9093

# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
  # - "first_rules.yml"
  # - "second_rules.yml"

# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
  - job_name: 'prometheus'

    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.

    static_configs:
    - targets: ['localhost:9090']

  - job_name: 'erp-monitord'

    metrics_path: '/prometheus'
    # scheme defaults to 'http'.

    static_configs:
    - targets: ['localhost:50258']

访问http://localhost:9090

Target

image-20210619133715408

Graph

image-20210619134235335

Springboot 集成

Springboot1.5集成

配置参照地址: https://micrometer.io/docs/ref/spring/1.5#
maven 依赖

 <dependency>
      <groupId>io.micrometer</groupId>
      <artifactId>micrometer-registry-prometheus</artifactId>
       <version>1.6.1</version>
</dependency>
 
  <dependency>
      <groupId>io.micrometer</groupId>
       <artifactId>micrometer-spring-legacy</artifactId>
       <version>1.3.15</version>
</dependency>

配置访问地址

#endpoints.prometheus.path=${spring.application.name}/prometheus
management.metrics.tags.application = ${spring.application.name}

启动springboot 服务查看指标 http://xxxx:port/prometheus

image-20210619134755801

Springboot2.x 版本集成

maven 依赖

  <dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-actuator</artifactId>
  </dependency>

      <dependency>
            <groupId>io.micrometer</groupId>
            <artifactId>micrometer-core</artifactId>
        </dependency>

        <dependency>
            <groupId>io.micrometer</groupId>
            <artifactId>micrometer-registry-prometheus</artifactId>
        </dependency>

默认地址: http://localhost:8990/actuator/prometheus

配置

#Prometheus springboot监控配置
management:
  endpoints:
    web:
      exposure:
        include: 'prometheus' # 暴露/actuator/prometheus
  metrics:
    tags:
      application: ${spring.application.name} # 暴露的数据中添加application label

自定义业务指标案例

代码配置

import com.slightech.marvin.api.visitor.app.metrics.VisitorMetrics;
import com.slightech.marvin.api.visitor.app.service.VisitorStatisticsService;
import io.micrometer.core.instrument.MeterRegistry;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.boot.actuate.autoconfigure.metrics.MeterRegistryCustomizer;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

/**
 * @author wanglu
 */
@Configuration
public class MeterConfig {

    @Value("${spring.application.name}")
    private String applicationName;
    @Autowired
    private VisitorStatisticsService visitorStatisticsService;
    @Bean
    public MeterRegistryCustomizer<MeterRegistry> configurer() {
        return (registry) -> registry.config().commonTags("application", applicationName);
    }

    @Bean
    public VisitorMetrics visitorMetrics() {
        return new VisitorMetrics(visitorStatisticsService);
    }
}

自定义指标处理类实现MeterBinder 接口


import io.micrometer.core.instrument.Gauge;
import io.micrometer.core.instrument.MeterRegistry;
import io.micrometer.core.instrument.binder.MeterBinder;

/**
 * @author wanglu
 * @date 2019/11/08
 */
public class VisitorMetrics implements MeterBinder {

    private static final String METRICS_NAME_SPACE = "visitor";

    private VisitorStatisticsService visitorStatisticsService;

    public VisitorMetrics(VisitorStatisticsService visitorStatisticsService) {
        this.visitorStatisticsService = visitorStatisticsService;
    }

    @Override
    public void bindTo(MeterRegistry meterRegistry) {
         //公寓获取二维码次数-当天
        //visitor_today_apartment_get_qr_code_count{"application"="xxx", "option"="apartment get qr code"}
        Gauge.builder(METRICS_NAME_SPACE + "_today_apartment_get_qr_code_count", visitorStatisticsService, VisitorStatisticsService::getTodayApartmentGetQrCodeCount)
                .description("today apartment get qr code count")
                .tag("option", "apartment get qr code")
                .register(meterRegistry);
                 //visitor_today_apartment_get_qr_code_count{"application"="xxx", "option"="employee get qr code"}
                 //员工获取二维码次数-当天
        Gauge.builder(METRICS_NAME_SPACE + "_today_employee_get_qr_code_count", visitorStatisticsService, VisitorStatisticsService::getTodayEmployeeGetQrCodeCount)
                .description("today employee get qr code count")
                .tag("option", "employee get qr code")
                .register(meterRegistry);
    }
}

埋点服务计数

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.data.redis.core.RedisTemplate;
import org.springframework.scheduling.annotation.Async;
import org.springframework.stereotype.Service;
import java.util.Calendar;
import java.util.Date;
import java.util.concurrent.TimeUnit;
/**
 * 数据统计
 *
 * @author laijianzhen
 * @date 2019/11/08
 */
@Service
public class VisitorStatisticsService {
    /**
     * 公寓获取二维码次数-当天
     */
    private static final String COUNT_TODAY_APARTMENT_GET_QR_CODE_REDIS_KEY = "Visitor:Statistics:CountTodayApartmentGetQrCode";
    /**
     * 员工获取二维码次数-当天
     */
    private static final String COUNT_TODAY_EMPLOYEE_GET_QR_CODE_REDIS_KEY = "Visitor:Statistics:CountTodayEmployeeGetQrCode";
  
    @Autowired
    private RedisTemplate<String, Object> redisTemplate;

    public int getTodayApartmentGetQrCodeCount() {
        return getCountFromRedis(COUNT_TODAY_APARTMENT_GET_QR_CODE_REDIS_KEY);
    }

    public int getTodayEmployeeGetQrCodeCount() {
        return getCountFromRedis(COUNT_TODAY_EMPLOYEE_GET_QR_CODE_REDIS_KEY);
    }

    @Async
    public void countTodayApartmentGetQrCode() {
        increaseCount(COUNT_TODAY_APARTMENT_GET_QR_CODE_REDIS_KEY);
    }

    @Async
    public void countTodayEmployeeGetQrCode() {
        increaseCount(COUNT_TODAY_EMPLOYEE_GET_QR_CODE_REDIS_KEY);
    }

    private int getCountFromRedis(String key) {
        Object object = redisTemplate.opsForValue().get(key);
        if (object == null) {
            return 0;
        }
        return Integer.parseInt(String.valueOf(object));
    }

    private void increaseCount(String redisKey) {
        Object object = redisTemplate.opsForValue().get(redisKey);
        if (object == null) {
            redisTemplate.opsForValue().set(redisKey, String.valueOf(1), getTodayLeftSeconds(), TimeUnit.SECONDS);
            return;
        }
        redisTemplate.opsForValue().increment(redisKey, 1);
    }

    private long getTodayLeftSeconds() {
        Date nowDate = new Date();
        Calendar midnight = Calendar.getInstance();
        midnight.setTime(nowDate);
        midnight.add(Calendar.DAY_OF_MONTH, 1);
        midnight.set(Calendar.HOUR_OF_DAY, 0);
        midnight.set(Calendar.MINUTE, 0);
        midnight.set(Calendar.SECOND, 0);
        midnight.set(Calendar.MILLISECOND, 0);
        return (midnight.getTime().getTime() - nowDate.getTime()) / 1000;
    }
}

Grafana 集成

下载安装

https://grafana.com/grafana/download?pg=get&plcmt=selfmanaged-box1-cta1&platform=mac

#下载解压
curl -O https://dl.grafana.com/oss/release/grafana-7.5.4.darwin-amd64.tar.gz
tar -zxvf grafana-7.5.4.darwin-amd64.tar.gz

启动

#启动
./bin/grafana-server web
#访问
http://localhost:3000
默认账号密码 admin admin

image-20210619140617363

数据源配置

image-20210619140724163

image-20210619140758511

image-20210619140826771

监控仪表盘

导入常用别人已配置的图表信息，例如：springboot 用了micrometer 库，从granfna官网可以找到该库已提供的的JVM监控图表

直接找到 id 导入即可。找找地址:https://grafana.com/grafana/dashboards

搜索

image-20210619141421183

查看详情

image-20210619141451117

导入

image-20210619141534030

JVM 监控仪表盘：

image-20210619141631429

自定义制作

image-20210619141735924

image-20210619142427843

报警

基于AlertManager报警

安装

下载二进制安装


# mac下载地址 https://prometheus.io/download/
# 解压
tar -zxvf prometheus-2.26.0.darwin-amd64.tar.gz
#启动 默认配置项为alertmanager.yml
./alertmanager --config.file=alertmanager.yml

docker 安装

docker run --name alertmanager -d -p 127.0.0.1:9093:9093 quay.io/prometheus/alertmanager

配置

alertmanager.yml 配置

# 全局配置项
global: 
  resolve_timeout: 5m #处理超时时间，默认为5min
  smtp_smarthost: 'smtp.sina.com:25' # 邮箱smtp服务器代理
  smtp_from: '******@sina.com' # 发送邮箱名称
  smtp_auth_username: '******@sina.com' # 邮箱名称
  smtp_auth_password: '******' # 邮箱密码或授权码  wechat_api_url: 'https://qyapi.weixin.qq.com/cgi-bin/' # 企业微信地址
# 定义模板信心templates:  - 'template/*.tmpl'
# 定义路由树信息
route:
  group_by: ['alertname'] # 报警分组依据
  group_wait: 10s # 最初即第一次等待多久时间发送一组警报的通知
  group_interval: 10s # 在发送新警报前的等待时间
  repeat_interval: 1m # 发送重复警报的周期 对于email配置中，此项不可以设置过低，否则将会由于邮件发送太多频繁，被smtp服务器拒绝
  receiver: 'email' # 发送警报的接收者的名称，以下receivers name的名称

# 定义警报接收者信息
receivers:
  - name: 'email' # 警报
    email_configs: # 邮箱配置
    - to: '******@163.com'  # 接收警报的email配置      html: '{{ template "test.html" . }}' # 设定邮箱的内容模板      headers: { Subject: "[WARN] 报警邮件"} # 接收邮件的标题    webhook_configs: # webhook配置    - url: 'http://127.0.0.1:5001'    send_resolved: true    wechat_configs: # 企业微信报警配置    - send_resolved: true      to_party: '1' # 接收组的id      agent_id: '1000002' # (企业微信-->自定应用-->AgentId)      corp_id: '******' # 企业信息(我的企业-->CorpId[在底部])      api_secret: '******' # 企业微信(企业微信-->自定应用-->Secret)      message: '{{ template "test_wechat.html" . }}' # 发送消息模板的设定# 一个inhibition规则是在与另一组匹配器匹配的警报存在的条件下，使匹配一组匹配器的警报失效的规则。两个警报必须具有一组相同的标签。 inhibit_rules:   - source_match:      severity: 'critical'     target_match:      severity: 'warning'     equal: ['alertname', 'dev', 'instance']

启用AlertManager 报警 prometheus.yml 配置

# my global config
global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).

# Alertmanager configuration
alerting:
  alertmanagers:
  - static_configs:
    - targets: ["localhost:9093"]

# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
   - "first_rules.yml"
   - "second_rules.yml"

Rule 定义

groups:
- name: <string>
  rules:
  - alert: <string>
    expr: <string>
    for:  [ <duration> | default 0 ]
    labels:
      [ <lable_name>: <label_value> ]
    annotations:
      [ <lable_name>: <tmpl_string> ]

参数	描述
- name: <string>	警报规则组的名称
- alert: <string>	警报规则的名称
expr: <string	使用PromQL表达式完成的警报触发条件，用于计算是否有满足触发条件
<lable_name>: <label_value>	自定义标签，允许自行定义标签附加在警报上，比如`high` `warning`
annotations: <lable_name>: <tmpl_string>	用来设置有关警报的一组描述信息，其中包括自定义的标签，以及expr计算后的值。

案例

groups:
- name: operations
  rules:
  - alert: node-down
    expr: up{env="operations"} != 1
    for: 5m
    labels:
      status: High
      team: operations
    annotations:
      description: "Environment: {{ $labels.env }} Instance: {{ $labels.instance }} is Down ! ! !"
      value: '{{ $value }}'
      summary:  "The host node was down 20 minutes ago"