使用Thanos实现Prometheus多集群监控

说明

在阅读本文之前，需要对Helm、Prometheus-operator、Thanos这三个工具有一定了解，以便于对文章的理解。简单介绍一下：

Helm是Kubernetes的包管理工具，相当于CentOS上的YUM。
Prometheus Operator则简化了在 Kubernetes 上部署、管理和运行 Prometheus 和 Alertmanager 集群。有了它之后，我们就不再需要拿一大堆的yaml去搭建Prometheus了。
Thanos是则是当下多Pormetheus节点最好的集群解决方案；它解决了Prometheus的两个问题：1.数据持久化存储。2.集中化全局视图。

准备事项

准备一台可以连接Kubernetes的主机，在主机上安装kubectl和helm命令。
上面我们说了用Thanos会将Pormetheus的数据持久化到对象存储，目前支持S3、微软Azure、腾讯COS、Google GCP、Openstack Swift 等对象存储系统。如果不想购买云服务商的OSS产品，可以用S3的开源实现Minio在虚机部署，注意虚机的磁盘空间要大。
新建一个s3.yaml文件`内容如下：

type: S3
config:
  bucket: your_bucket
  endpoint: xxx.xxx.xxx
  access_key: your_AK
  secret_key: your_SK
  insecure: true
  signature_version2: false

bucket、endpoint、access_key、secret_key、insecure需要根据你的实际情况进行填写，需要注意你的AKSK必须对buetck有读写权限。

#创建k8s namespace
kubectl create namespace monitor
kubectl -n monitor create secret generic thanos-objstore-config --from-file=thanos.yaml=s3.yaml

安装步骤

执行以下命令获取Prometheus Operator

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm repo update
#pull会下载一个kube-prometheus-stack-xxx.tgz
helm pull prometheus-community/kube-prometheus-stack
tar -xf kube-prometheus-stack-20.0.1.tgz 
cd kube-prometheus-stack

默认情况下Prometheus Operator会安装以下组件，并直接启动服务：

prometheus-operator
prometheus
alertmanager
node-exporter
kube-state-metrics
grafana
但实际情况是，我们只需要其中部分的组件，并使用对象存储。以grafana为例，在工作场景中我们需要一个统一的grafana来展示全局Prometheus数据，而不是每个Prometheus环境都部署grafana。
因此建议不要使用helm install去直接安装，而是用helm pull先把包拉取下来，然后再进行定制化的修改。
编辑values.yaml文件，配置信息实在是太多了，以下是部分值的修改，按需取用：

---
#原内容 不启用thanos
thanos: {}
#修改后 启用thanos，并配置对象存储
thanos:
  baseImage: quay.io/thanos/thanos
  version: v0.17.2
  objectStorageConfig:
    key: thanos.yaml
    name: thanos-objstore-config
---
#原内容，不设置外部标签
externalLabels: {}
#修改后,添加外部标签
externalLabels:
  produc_name: bpms
  run_env: test
---
#原内容 不启用thanos service
thanosService:
  enabled: false
  type: ClusterIP
  clusterIP: "None"
#修改后 使用nodeport暴露thanos service
thanosService:
  enabled: true
  type: NodePort
  clusterIP: ""
---
#启用altermanager
alertmanager:
  enabled: true
#修改后，禁用部署altermanager
alertmanager:
  enabled: false
---
#启用grafana
grafana:
  enabled: true
#修改后，禁用部署grafana
grafana:
  enabled: false
---
#原内容 prometheus默认使用Headless Services
## Configuration for Prometheus service
##
service:
  port: 9090
  nodePort: 30090
  type: ClusterIP
#修改后 使用NodePort
service:
  port: 9090
  nodePort: 30090
  type: NodePort

最后启动服务：

#在kube-prometheus-stack执行
helm install kube-prometheus-stack ./ -n monitor

这样thanos sidecar与prometheus server运行在同一个pod中了，具体可通过以下代码查看：

kubectl describe pod prometheus-kube-prometheus-stack-prometheus-0 -n monitor

可以看到Containers中有多个实例。
如果想要查看一下日志：

kubectl logs -f  prometheus-kube-prometheus-stack-prometheus-0 -c thanos-sidecar  -n monitor

在修改values.yaml时，我们已经把prometheus与sidecar通过nodePort方式暴露出来了。需要注意的是prometheus实际上不需要暴露出来，这里只是为了方便调试，所有访问prometheus的请求都应该通过sidecar去访问。
再启动一个thanos-query看一下效果,thanos-query提供了一个和prometheus UI几乎完全一致的页面：

#http-address是thanos-query对外访问的地址
#store参数填写sidecar的grpc地址，在values.yaml中有定义
./thanos query \
    --http-address              0.0.0.0:19193 \
    --store  10.81.100.17:30901

访问thanos-query的web地址，查看一下node_exporter中的指标：

3E8CFB5F-C90B-4F12-AD56-49DAFFBDD6C0.png

启动一个thanos-ruler

./thanos rule \
    --data-dir  "/root/thanos-0.23.1.linux-amd64/ruler/data" \
    --rule-file "/root/thanos-0.23.1.linux-amd64/ruler/rules/*.ruler.yaml" \
    --query "http://10.81.3.8:19193" \
    --http-address  "10.81.3.8:10912" \
    --grpc-address "0.0.0.0:10911" \
    --objstore.config-file bucket_config.yaml \
    --alertmanagers.url "http://10.81.3.8:9093"

在启动是需要指定altermanager地址，并配置好rule文件，rule文件格式如下：

groups:
- name: node
  rules:
    - alert: xxx
    - aletr: xxxx

配置alertmanager告警，这里我选择使用钉钉群机器人告警，需要用的一个第三方的插件
在alertmanager中将receiver指定为dingtalk插件的地址即可：

route:
  group_by: ['alertname']
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 1h
  receiver: 'web.hook'
receivers:
- name: 'web.hook'
  webhook_configs:
  - url: 'http://localhost:8060/dingtalk/webhook1/send'
inhibit_rules:
  - source_match:
      severity: 'critical'
    target_match:
      severity: 'warning'
    equal: ['alertname', 'dev', 'instance']

当然我们需要在dingtalk插件中配置机器人的相关信息,告警效果：

image.png

通过grafana展示一下thanos-query的数据，在grafana添加一个prometheus数据源，地址填写query的地址即可。
最后看一下对象存储里是否有数据，这个需要2个小时才有文件。

image.png

总结

在面对多K8S环境时，我们需要在每个K8S集群中通过helm安装prometheus和thanos-sidecar。你可以选择将不同环境的指标写到不同的bucket中。然后我们只需要一个granfana、thanos-query（可以组建集群分担压力）、一个thanos-ruler（定义告警指标）、一个alertmanager。

最后编辑于：2021.12.16 11:39:33

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,295评论 6赞 512
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,928评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,682评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,209评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,237评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,965评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,586评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,487评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,016评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,136评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,271评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,948评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,619评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,139评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,252评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,598评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,267评论 2赞 358

使用Thanos实现Prometheus多集群监控

说明

准备事项

安装步骤

总结

推荐阅读更多精彩内容