Prometheus 4种数据类型和自定义监控指标

上一篇文章，讲了通过textfile collector收集业务数据，今天讲用代码方式实现（本文只写Python示例，其他语言见官方文档）

先安装Prometheus Python客户端 pip install prometheus-client

Counter

counter（计数器）是一种只增不减（或者可以被重置为0）的数据类型。

A counter is a cumulative metric that represents a single monotonically increasing counter whose value can only increase or be reset to zero on restart. For example, you can use a counter to represent the number of requests served, tasks completed, or errors. Do not use a counter to expose a value that can decrease.

例：基于fastapi记录某个url的访问次数，和发生异常的次数

from random import randint
from fastapi import FastAPI
from prometheus_client import make_asgi_app, Counter
import uvicorn

# Create app
app = FastAPI(debug=False)

# Add prometheus asgi middleware to route /metrics requests
metrics_app = make_asgi_app()
app.mount("/metrics", metrics_app)

# 访问量
c1 = Counter('pv', 'page view')

# 发生了多少次异常
c2 = Counter('exception', 'exception count')

# 发生了多少次ValueError异常
c3 = Counter('valueerror_exception', 'ValueError exception count')

@app.get("/")
@c2.count_exceptions()
def root():
    c1.inc()  # Increment by 1
    # c1.inc(1.6)  # Increment by given value
    # c1.reset() # reset to zero

    with c3.count_exceptions(ValueError):
        random_num = randint(1, 100)
        if random_num % 2 == 0:
            raise ValueError
        if random_num % 3 == 0:
            raise ZeroDivisionError
    return {"Hello": "World"}

if __name__ == '__main__':
    uvicorn.run(app, host="0.0.0.0", port=8000)

运行程序，多次访问Ip:8000制造一些数据，访问 ip:8000/metrics 就能看见上面代码的结果：总共访问了31次，发生了22次异常，其中有17次是ValueError异常

将其添加到Prometheus的target中（参考我之前的文章），然后用grafana显示出来：

Gauge

Gauge也是记录单个数值的，和counter的区别是，Gauge的数值可增可减

A gauge is a metric that represents a single numerical value that can arbitrarily go up and down.

例：记录正在运行的线程数量

from random import randint
import time
from concurrent.futures import ThreadPoolExecutor
from prometheus_client import start_http_server, Gauge

g = Gauge('my_inprogress_requests', 'Description of gauge')

# g.inc()      # Increment by 1
# g.inc(6.6)   # Increment by given value
# g.dec()      # Decrement by 1
# g.dec(10)    # Decrement by given value
# g.set(4.2)   # Set to a given value

@g.track_inprogress()  # Increment when entered, decrement when exited.
def process_request(t):
    """A dummy function that takes some time."""
    time.sleep(t)

    # with g.track_inprogress():
    #     pass


if __name__ == '__main__':
    # Start up the server to expose the metrics.
    start_http_server(8000)

    with ThreadPoolExecutor(max_workers=60) as executor:
        # 提交一些任务到线程池
        for i in range(100):
            executor.submit(process_request, randint(30, 40))
            time.sleep(1)
    time.sleep(60)

访问 ip:8000/metrics 就能看见上面代码的数据：

运行中的线程数量会从0逐步上升到max_workers然后稳定一小下，最后下降到0，添加到grafana图表展示：

Histogram

Histogram用于观察数据的分布情况。它可以自定义配置多个范围的bucket，观测的数据会落到属于它范围内的bucket，然后prometheus会对桶里的数据进行计数，同时还提供了所有观测值的总和。

先看下图的例子（接口响应时间的统计），然后我会对上面这段话进行一一解释：

指标名称是request_latency_seconds,此外Histogram类型的指标，后面会自动加上_bucket,代表桶的范围
bucket 默认的bucket范围是 (.005, .01, .025, .05, .075, .1, .25, .5, .75, 1.0, 2.5, 5.0, 7.5, 10.0, INF) (INF 是infinity 无穷大)。下图的例子我把范围改成了(.5, 1.0, 1.5, 2.0, 2.5, 3.0)，意思是请求响应时间在0.5秒内、1秒内、1.5秒内……对应指标后面的le=
指标名称+_count 代表所有的数据量（这个例子中，代表接口调用的次数，100次）
指标名称+ _sum 代表所有数据观测值的和（这个例子中，代表这100次请求中共花费的时间）

对上图整个例子进行解释就是：我发起了100次接口请求，总共耗时156.038秒，这100次请求中，有10次请求的响应时间是在0.5秒内，有33次请求的响应时间在1秒内（包括了0.5秒内的数量），有49次请求的响应时间在1.5秒内（包括了0.5秒内和1秒内的数量）……这就类似于统计学中的分位值

上图对应的代码：

from random import uniform
import time
from fastapi import FastAPI
import uvicorn
from prometheus_client import make_asgi_app, Histogram

h = Histogram('request_latency_seconds', 'Description of histogram', buckets=(.5, 1.0, 1.5, 2.0, 2.5, 3.0))
# h.observe(4.7)    # Observe 4.7 (假设 这个请求耗时 4.7秒)

app = FastAPI(debug=False)

# Add prometheus asgi middleware to route /metrics requests
metrics_app = make_asgi_app()
app.mount("/metrics", metrics_app)

@app.get("/")
@h.time()
def root():
    time.sleep(uniform(0, 3))
    return {"Hello": "World"}

if __name__ == '__main__':
    uvicorn.run(app, host="0.0.0.0", port=8000)

除此之外Histogram还可以使用histogram_quantile 计算分位值
例如计算80分位值 histogram_quantile(0.8, rate(request_latency_seconds_bucket[10m])) 结果是2.49 和上面/metrics数据（le="2.5"）是吻合的

添加到grafana 使用Heatmap图表展示：(这个主题中，白色代表数值最大，越黑代表数值越小)

Summary

Summary和Histogram类似，只是没有Histogram那么详细的数据。Summary只有一个观测值计数<basename>_count 和一个测值总和<basename>_sum 。如下图

上图对应的代码：

from random import uniform
import time
from fastapi import FastAPI
import uvicorn
from prometheus_client import make_asgi_app, Summary

s = Summary('request_latency_summary', 'Description of summary')
# s.observe(4.7)    # Observe 4.7 (假设 这个请求耗时 4.7秒)

app = FastAPI(debug=False)

# Add prometheus asgi middleware to route /metrics requests
metrics_app = make_asgi_app()
app.mount("/metrics", metrics_app)

@app.get("/")
@s.time()
def root():
    time.sleep(uniform(0, 3))
    return {"Hello": "World"}


if __name__ == '__main__':
    uvicorn.run(app, host="0.0.0.0", port=8000)

添加到grafana面板：
可以用 basename_sum / basename_count 粗略统计平均值

另外，本文用到的fastapi 只是为了方便阐述这几种数据类型，全是用的单进程（官方给的多进程例子，我没跑起来，暂时没深入研究）不适用于多进程的生产环境，多进程下可能用Pushgateway更合适。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,185评论 6赞 503
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,652评论 3赞 393
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,524评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,339评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,387评论 6赞 391
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,287评论 1赞 301
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,130评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,985评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,420评论 1赞 313
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,617评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,779评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,477评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,088评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,716评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,857评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,876评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,700评论 2赞 354

Prometheus 4种数据类型和自定义监控指标

Counter

Gauge

Histogram

Summary

推荐阅读更多精彩内容